본문 바로가기
★ 프로그래밍/º 인공지능융합교육과

데이터 불균형의 문제 (1종-2종오류, 언더샘플링, 오버샘플링)

by 공부하는 체육쌤 2022. 10. 29.

  • 데이터불균형
  • 데이터불균형의 문제
  • 1종오류와 2종오류
  • 언더샘플링
  • 오버샘플링

1. 데이터불균형

  • 정상데이터와 이상데이터의 숫자가 불균형을 이루어 전처리 없이 그대로 학습진행시, 잠재적으로 이상 데이터에 대한 예측정확도가 낮아지는 데이터불균형의 문제를 초래할 수 있음
  • 즉, 불량품(이상)을 정확히 분류하는 것에 대한 문제 발생
  • ex) 축구공을 따라가는 AI 카메라에서 축구공 대신 대머리 심판의 머리를 찾아 따라다니며 중계하는 일이 발생하였을 때 불균형데이터(대머리)를 오버샘플링하여 데이터 불균형을 해소할 필요성이 있음



2. 데이터불균형의 문제

  • 1종오류 : 정품(축구공)을 불량으로 분류하는 것.
  • 2종오류 : 불량품(대머리)를 정품(축구공)으로 분류하는 것.


3.  언더샘플링

  • 불균형한 데이터셋에서 높은비율을 차지하던 클래스의 데이터 수를 줄여서 데이터 불균형을 해소하는 방법
  • 단점 : 학습에 사용되는 전체 데이터수를 감소시켜야 하기 때문에 오히려 성능이 떨어질 가능성이 있음


4. 오버샘플링

  • 낮은 비율의 데이터 수를 늘려 더 많은 데이터를 제공하여 데이터 불균형을 해소하는 방법
  • SMOTE기법 :  낮은 비율 클래스의 데이터들의 최근접 이웃을 이용하여 새로운 데이터를 생성하는 것.







반응형