★ 프로그래밍/º 인공지능융합교육과
데이터 불균형의 문제 (1종-2종오류, 언더샘플링, 오버샘플링)
공부하는 체육쌤
2022. 10. 29. 14:13
- 데이터불균형
- 데이터불균형의 문제
- 1종오류와 2종오류
- 언더샘플링
- 오버샘플링
1. 데이터불균형
- 정상데이터와 이상데이터의 숫자가 불균형을 이루어 전처리 없이 그대로 학습진행시, 잠재적으로 이상 데이터에 대한 예측정확도가 낮아지는 데이터불균형의 문제를 초래할 수 있음
- 즉, 불량품(이상)을 정확히 분류하는 것에 대한 문제 발생
- ex) 축구공을 따라가는 AI 카메라에서 축구공 대신 대머리 심판의 머리를 찾아 따라다니며 중계하는 일이 발생하였을 때 불균형데이터(대머리)를 오버샘플링하여 데이터 불균형을 해소할 필요성이 있음
2. 데이터불균형의 문제
- 1종오류 : 정품(축구공)을 불량으로 분류하는 것.
- 2종오류 : 불량품(대머리)를 정품(축구공)으로 분류하는 것.
3. 언더샘플링
- 불균형한 데이터셋에서 높은비율을 차지하던 클래스의 데이터 수를 줄여서 데이터 불균형을 해소하는 방법
- 단점 : 학습에 사용되는 전체 데이터수를 감소시켜야 하기 때문에 오히려 성능이 떨어질 가능성이 있음
4. 오버샘플링
- 낮은 비율의 데이터 수를 늘려 더 많은 데이터를 제공하여 데이터 불균형을 해소하는 방법
- SMOTE기법 : 낮은 비율 클래스의 데이터들의 최근접 이웃을 이용하여 새로운 데이터를 생성하는 것.
반응형