- 데이터불균형
- 데이터불균형의 문제
- 1종오류와 2종오류
- 언더샘플링
- 오버샘플링
1. 데이터불균형
- 정상데이터와 이상데이터의 숫자가 불균형을 이루어 전처리 없이 그대로 학습진행시, 잠재적으로 이상 데이터에 대한 예측정확도가 낮아지는 데이터불균형의 문제를 초래할 수 있음
- 즉, 불량품(이상)을 정확히 분류하는 것에 대한 문제 발생
- ex) 축구공을 따라가는 AI 카메라에서 축구공 대신 대머리 심판의 머리를 찾아 따라다니며 중계하는 일이 발생하였을 때 불균형데이터(대머리)를 오버샘플링하여 데이터 불균형을 해소할 필요성이 있음
2. 데이터불균형의 문제
- 1종오류 : 정품(축구공)을 불량으로 분류하는 것.
- 2종오류 : 불량품(대머리)를 정품(축구공)으로 분류하는 것.
3. 언더샘플링
- 불균형한 데이터셋에서 높은비율을 차지하던 클래스의 데이터 수를 줄여서 데이터 불균형을 해소하는 방법
- 단점 : 학습에 사용되는 전체 데이터수를 감소시켜야 하기 때문에 오히려 성능이 떨어질 가능성이 있음
4. 오버샘플링
- 낮은 비율의 데이터 수를 늘려 더 많은 데이터를 제공하여 데이터 불균형을 해소하는 방법
- SMOTE기법 : 낮은 비율 클래스의 데이터들의 최근접 이웃을 이용하여 새로운 데이터를 생성하는 것.
반응형
'★ 프로그래밍 > º 인공지능융합교육과' 카테고리의 다른 글
경인교대 과제 : AI 알고리즘 - 알파베타 Pruning 테스트 (PDF) (0) | 2022.10.23 |
---|---|
인공지능교육 : 메타버스의 교육적 활용 가능성 (0) | 2022.10.23 |
인공지능교육 : 인공지능 사고와 관련 사고력 (0) | 2022.10.23 |
빅데이터 (출현 배경, 정형/반정형/비정형 데이터, 빅데이터) (0) | 2022.09.21 |
경인교대 과제 : 머신러닝 - 머신러닝 적용 교육 연구 사례 논문 요약 발표 (MP4) (0) | 2022.09.01 |