일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Data Imbalance
- Text generation
- Inatance segmentation
- GAN
- Gausian Density Estimation
- 국비지원교육
- Digital Pathology
- PM4Py
- Sequence data
- SQL 데이터 분석 첫걸음
- multi modal
- 병리 AI
- Clustering 기반 이상탐지
- Grad-CAM
- auto encoder
- 밀도 기반 이상탐지
- Random Undersampling
- 프로세스 마이닝
- 딥러닝
- Process Mining
- Condensed neares neighbor rule
- Fixed Learning
- 거리 기반 이상탐지
- Petri net
- One-Sided Selection
- OCSVM
- Generative modeling
- Tomek links
- XAI
- Meta heuristic
- Today
- Total
목록이상 탐지 (7)
Create Opportunities

재구축 기반 이상탐지 기법 차원축소 후 차원복원의 값과 원본 데이터의 값의 차이를 본다. → Reconstruction Error (=Novelty score) 1) PCA 기반 이상탐지 PCA는 직교선형 변환을 통한 차원 축소 기법이며, 분산의 최대 보존이 중요하다. 2) Auto Encoder기반 이상탐지 신경망을 통한 차원축소 외에는 마찬가지임. Input과 Output간의 차이(MSE) 측정한다. 이 값이 즉, Novelty score가 된다.

경계 기반 이상탐지 기법 1) One-class SVM (1-SVM) 일단 SVM을 요약해보면, : 데이터 공간상에서 정상과 이상을 구분하는 경계선(= 판별 함수)을 직접 정의한다. 고차원 상에서의 SVM 학습은 Hyperplane을 구하는 것이다. 아니, 근데 정상만으로 학습하는데 정상과 이상의 분류 경계선을 어떻게 설정할 수 있냐 ? → 이게 핵심이다. hyperplane으로부터 각 class의 가장 인접한 관측치까지의 거리 (= Margin) 를 최대화!! outlier에 강건하게, generalization 성능을 높이도록 hyperplane을 찾아야 한다. 위 수식은 SVM의 핵심이며, 증명은 그리 어렵지 않다... 잘 생각해보면 된다. 저차원 → 고차원(kernel trick) Mapping하..

거리 기반 이상탐지 기법 1) KNN 기반 이상탐지 ML 모델은 Model-based learning과 Instance-based learning으로 나눌 수 있는데, KNN은 대표적인 Instance-based learning이다. Model-based는 흔히 아는 f(X)를 구축하는 것이고, Instance-based는 Learning을 하기는 하는데, 학습 모델을 따로 구축하는 것은 아님. k값에 민감하고 / 새 관측치마다 이웃점과의 거리를 재계산해야 함 / 학습시간이 상대적으로 짧고 예측시간이 길다. 이러한 KNN으로 이상탐지를 어떻게 할까? 아래 세가지를 기반으로 distance를 측정할 수 있다. 1. 이웃점 거리 중 최대값 : kappa 2. 이웃점 거리의 평균값 : Gamma 3. 벡터의 ..

이전 글에 이어 밀도 기반 이상탐지 기법을 하나 더 정리한다. Local Outlier Factor 이다. 해당 알고리즘은 가우시안 모델과 달리, Distribution의 개념이 포함되지 않는다. 특정 관측치의 이웃점들의 지역 밀도(Locality pattern)를 계산하여 이상탐지에 활용 > 이웃점들 대비 저밀도에 해당하는 관측치를 이상으로. LOF 구축 절차 Step 1 : k-distance 계산 k값을 설정하고, 특정 데이터 포인트 p에서 k번째로 가까운 관측치까지의 거리를 k-distance로 저장한다. Step 2 : k-distance 내 이웃 수를 측정 (동률도 포함) Step 3 : Reachability - distance_k 측정 Max[k-distance, distance(p, o)..

이제 여러 알고리즘 기반의 이상탐지 기법에 대한 내용이다. 1. 밀도 기반 이상탐지 1) Gaussian Density Estimation : 관측된 정상 데이터가 정규분포를 따른다 가정. 다변량 정규분포에서의 밀도 측정 (= 정상일 확률) 왼쪽의 데이터 분포 그림으로 이해하면 쉽다. 데이터가 떨어졌을 때, 해당 범위 안에 있는가? Step 1 정규분포 가정 : 정상 데이터만을 학습데이터로 활용할 것이다. 정상 데이터에 대한 2개의 파라미터 mu, sigma^2 를 추정. 이에 기반하여 Novelty score를 계산할 수 있다. 어떻게 ? 밀도 함수를 구해서 이것의 면적을 다 합하면 됨. Log함수 씌워서 쉽게 계산 Log L을 mu와 sigma^2에 대해서 각각 편미분을 하여 추정할 수 있다. (최대..

우리말로 "이상탐지"를 배운다. 이상탐지는 여러 용어로 불리운다. Anomaly Detection, Outlier Detection, One Class Classification, Novelty Detection ... "이상탐지는 y 레이블이 없는 경우, 가장 널리 사용되는 분류 기법이다" 이 말을 들었을 때, 이상탐지는 비지도 학습이겠지? 라고 생각했으나, 그렇지 않다. 비지도 학습이라 말하는 사람들도 있으나, 지도 학습 기반의 분류 기법이라고 알고 있는 것이 낫겠다. 왜냐? 정상이 무엇인지 알아야지, 해당되는 정상 데이터를 기준으로 학습하는 알고리즘이기 때문이다. 정상이 무엇인지 모르는 상태에서 학습을 할 수 없기 때문. 준지도 학습, 비지도 학습에 해당되는 Clustering, 연관분석(추천sys..

Novelty : 본질적인 데이터는 같지만 유형이 다른 관측치를 말한다. Annomaly : 대부분의 데이터와 본질적인 특성이 다른 관측치를 말한다. (전혀 다른 방식으로 생성되었을 것으로 추정) 이상치 탐지는 어떻게 하는 것일까 ? 가장 기본적으로 생각할 수 있는 것은 정상과 불량을 구별할 수 있는 모델을 만드는 것이다. 변수들의 값들을 기반으로 y 레이블이 0인지 1인지, 지도학습 기반으로 이상치를 탐지할 수 있다. Logistic Regression 이나 Gradient Boosting 모델 등의 분류 모델을 사용할 수 있다. 하지만, 특정 데이터가 정상인지 불량인지 Label을 정확히 모르는 경우에는 이를 적용하는데 한계가 있다. 비지도 학습 기반 이상치 탐지에는 다양한 방법론이 존재한다. 1. ..