일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Fixed Learning
- PM4Py
- 국비지원교육
- 밀도 기반 이상탐지
- Generative modeling
- Digital Pathology
- Condensed neares neighbor rule
- auto encoder
- Text generation
- Grad-CAM
- GAN
- Data Imbalance
- multi modal
- Random Undersampling
- SQL 데이터 분석 첫걸음
- 딥러닝
- XAI
- Process Mining
- Clustering 기반 이상탐지
- Tomek links
- 프로세스 마이닝
- 거리 기반 이상탐지
- One-Sided Selection
- 병리 AI
- Inatance segmentation
- OCSVM
- Gausian Density Estimation
- Meta heuristic
- Petri net
- Sequence data
- Today
- Total
Create Opportunities
[인공지능 응용] 데이터 불균형 문제 (2) 본문
Sampling method는 두 가지로 나뉘어진다.
Under sampling
: Majority class의 sample 수를 줄여.
Over sampling
: Minority class의 sample 수를 늘려.
1. Random undersampling
: Majority class sample 수를 '임의로' 줄여. > Majority class에 overfitting 방지.
하지만, random seed에 따라 다양하게 결과가 도출됨.
2. Tomek links
: 두 범주 사이를 탐지하고, 정리를 통해 부정확한 분류 경계선을 방지한다.
x_i : 다수 클래스, x_j : 소수 클래스
d(x_i, x_k) < d(x_i, x_j) 또는 d(x_j, x_k) < d(x_i, x_j)가 되는 관측치 x_k가 없는 경우에 Tomek links로 연결된다고 말한다.
그림으로 이해하는게 쉽겠죠..

Tomek links를 형성 후, 다수 범주에 속한 관측치를 아래의 그림처럼 제거하는 것!

!! 분류 경계선이 조금 더 확연해짐.
3. Condensed Nearest Neighbor Rule (CNN rule)
Majority class는 하나의 sample만 선택, Minority class는 전체 sample 선택해서 Sub Dataset 구성.

이제 규칙 정의는 아래와 같다.
1. Minority class 전체와 Majority class에서 무작위로 하나의 관측치를 선택
2. Sub Dataset에서 무시된 회색 점들을 거리 기반으로 분류함.
3. 오분류된 sample들만 가지고 다시 분류 경계선을 설정함.

4. sample 수가 비슷해질수록 이를 더 잘 분류할 수 있도록 balance있게 classifier를 만들 수 있음. (아래 그림 참고)

4. One-side selection(OSS)
: Tomek links + CNN : 두 방법론들의 개념을 혼합하여 적용
Tomek links는 애매한 경계면들의 Majority class의 샘플들을 정리해나가는 방식이고, CNN은 오히려 경계면에 분포되어있는 샘플들을 활용하는데... 이를 혼합해서 적용한 기법이라고 보면 됨.

!! 더 확실한 경계선이 만들어진다.
UIndersampling의 장점
- 당연히 데이터 오버랩이 감소하고, 계산 시간도 감소하고.
Undersampling의 한계점.
- 데이터 제거로 인한 정보 손실 발생 > 모델 학습에 유용한 관측치가 제거될 수 있음.
- 실제로 성능도 좀 떨어지는 경향이 있음.
'인공지능' 카테고리의 다른 글
Meta Heuristics ? (0) | 2022.12.03 |
---|---|
[인공지능 응용] 데이터 불균형 문제 (3) (0) | 2022.10.04 |
[인공지능 응용] 데이터 불균형 문제 (1) (8) | 2022.09.19 |
[딥러닝] 수학적 접근의 딥러닝 (1) (5) | 2022.09.10 |
[BITAmin] 딥러닝 2주차 세션 복습 (4) | 2022.09.05 |