Create Opportunities

[인공지능 응용] Anomaly Detection(4) 본문

이상 탐지

[인공지능 응용] Anomaly Detection(4)

kimjaeyoon 2022. 12. 1. 22:46

거리 기반 이상탐지 기법

1) KNN 기반 이상탐지

 

ML 모델은

Model-based learning과 Instance-based learning으로 나눌 수 있는데, KNN은 대표적인 Instance-based learning이다.

Model-based는 흔히 아는 f(X)를 구축하는 것이고, Instance-based는 Learning을 하기는 하는데, 학습 모델을 따로 구축하는 것은 아님.

k값에 민감하고 / 새 관측치마다 이웃점과의 거리를 재계산해야 함 /  학습시간이 상대적으로 짧고 예측시간이 길다.

 

이러한 KNN으로 이상탐지를 어떻게 할까?

 

아래 세가지를 기반으로 distance를 측정할 수 있다. 

1. 이웃점 거리 중 최대값 : kappa

2. 이웃점 거리의 평균값 : Gamma

3. 벡터의 방향성 고려하여 그 점까지의 거리 : Delta 


2) K-means Clustering 기반 이상탐지

각 군집은 하나의 중심을 가지며, 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 생성한다.

1. K개의 초기 군집 중심점 설정

2. 모든 데이터를 가장 가까운 중심에 할당

3. 할당된 데이터들을 이용하여 중심점 재설정

4. 모든 데이터를 가장 가까운 중심에 재할당

4. 군집의 중심점과 데이터 할당에 변화가 없으면 종료

 

이러한 K-means Clustering으로 이상탐지를 어떻게 할까?

 

1. 최단거리 중심점까지의 절대적 거리에 기반하여 Novelty score 측정

2. 최단거리 중심점까지의 상대적 거리에 기반하여 Novelty score 측정 (아래 그림)

상대적 거리에 기반하여 Novelty score 측정

프로젝트에서 해당 기법의 이상탐지를 적용하였을 때, score가 제대로 나오지 않았다. 그 이유를 생각해보자.

왜일까..

단순히 차원이 커서 ?

kappa, gamma, delta 파라미터 설정 ?

음.. 다시 봐야겠다.