일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- PM4Py
- Random Undersampling
- multi modal
- Gausian Density Estimation
- 밀도 기반 이상탐지
- Process Mining
- GAN
- Grad-CAM
- 프로세스 마이닝
- Sequence data
- OCSVM
- SQL 데이터 분석 첫걸음
- 딥러닝
- Data Imbalance
- Text generation
- auto encoder
- Condensed neares neighbor rule
- XAI
- Clustering 기반 이상탐지
- Digital Pathology
- Inatance segmentation
- 거리 기반 이상탐지
- Fixed Learning
- Meta heuristic
- 국비지원교육
- Generative modeling
- Tomek links
- One-Sided Selection
- 병리 AI
- Petri net
- Today
- Total
목록Data Imbalance (2)
Create Opportunities

Sampling method는 두 가지로 나뉘어진다. Under sampling : Majority class의 sample 수를 줄여. Over sampling : Minority class의 sample 수를 늘려. 1. Random undersampling : Majority class sample 수를 '임의로' 줄여. > Majority class에 overfitting 방지. 하지만, random seed에 따라 다양하게 결과가 도출됨. 2. Tomek links : 두 범주 사이를 탐지하고, 정리를 통해 부정확한 분류 경계선을 방지한다. x_i : 다수 클래스, x_j : 소수 클래스 d(x_i, x_k) < d(x_i, x_j) 또는 d(x_j, x_k) < d(x_i, x_j)가 되는 관..

부족한 레이블 데이터를 기준으로 어떻게 문제를 해결할 것인가, 1. 불균형 데이터의 특징 - Small disjuncts : 작은 군집의 데이터가 섞임 - Lack of density : 두 클래스가 있을 때, 특정 클래스의 데이터가 퍼져 있는 경우 (밀도가 상대적으로 sparse) - Overlapping or class separability (아래 이미지 참고) - Noisy data : 어떠한 기준에 의해 판별되는 값이 아니라, Outlier 그 이상의 오류값. Data handling 과정에서 발생 - Borderline examples : 정확도가 높은 학습 모델을 구축하기 어려운 case - Data shift : 데이터 분포의 형태가 점차 변화하는 경우 > 학습 모델 구축 어려움. 2. 데..