일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Generative modeling
- multi modal
- Grad-CAM
- Process Mining
- Inatance segmentation
- SQL 데이터 분석 첫걸음
- XAI
- 병리 AI
- 거리 기반 이상탐지
- auto encoder
- OCSVM
- 딥러닝
- Tomek links
- One-Sided Selection
- Data Imbalance
- Sequence data
- Condensed neares neighbor rule
- GAN
- 밀도 기반 이상탐지
- 국비지원교육
- Fixed Learning
- Gausian Density Estimation
- Meta heuristic
- Clustering 기반 이상탐지
- Text generation
- Petri net
- PM4Py
- Digital Pathology
- 프로세스 마이닝
- Random Undersampling
- Today
- Total
목록전체 글 (51)
Create Opportunities

이전 글에 이어 밀도 기반 이상탐지 기법을 하나 더 정리한다. Local Outlier Factor 이다. 해당 알고리즘은 가우시안 모델과 달리, Distribution의 개념이 포함되지 않는다. 특정 관측치의 이웃점들의 지역 밀도(Locality pattern)를 계산하여 이상탐지에 활용 > 이웃점들 대비 저밀도에 해당하는 관측치를 이상으로. LOF 구축 절차 Step 1 : k-distance 계산 k값을 설정하고, 특정 데이터 포인트 p에서 k번째로 가까운 관측치까지의 거리를 k-distance로 저장한다. Step 2 : k-distance 내 이웃 수를 측정 (동률도 포함) Step 3 : Reachability - distance_k 측정 Max[k-distance, distance(p, o)..

이제 여러 알고리즘 기반의 이상탐지 기법에 대한 내용이다. 1. 밀도 기반 이상탐지 1) Gaussian Density Estimation : 관측된 정상 데이터가 정규분포를 따른다 가정. 다변량 정규분포에서의 밀도 측정 (= 정상일 확률) 왼쪽의 데이터 분포 그림으로 이해하면 쉽다. 데이터가 떨어졌을 때, 해당 범위 안에 있는가? Step 1 정규분포 가정 : 정상 데이터만을 학습데이터로 활용할 것이다. 정상 데이터에 대한 2개의 파라미터 mu, sigma^2 를 추정. 이에 기반하여 Novelty score를 계산할 수 있다. 어떻게 ? 밀도 함수를 구해서 이것의 면적을 다 합하면 됨. Log함수 씌워서 쉽게 계산 Log L을 mu와 sigma^2에 대해서 각각 편미분을 하여 추정할 수 있다. (최대..

우리말로 "이상탐지"를 배운다. 이상탐지는 여러 용어로 불리운다. Anomaly Detection, Outlier Detection, One Class Classification, Novelty Detection ... "이상탐지는 y 레이블이 없는 경우, 가장 널리 사용되는 분류 기법이다" 이 말을 들었을 때, 이상탐지는 비지도 학습이겠지? 라고 생각했으나, 그렇지 않다. 비지도 학습이라 말하는 사람들도 있으나, 지도 학습 기반의 분류 기법이라고 알고 있는 것이 낫겠다. 왜냐? 정상이 무엇인지 알아야지, 해당되는 정상 데이터를 기준으로 학습하는 알고리즘이기 때문이다. 정상이 무엇인지 모르는 상태에서 학습을 할 수 없기 때문. 준지도 학습, 비지도 학습에 해당되는 Clustering, 연관분석(추천sys..

요즘 산학 프로젝트를 진행하면서, 어려움을 겪고 있다. 방학 중 여러 종류의 GAN 모델에 대해서 논문을 찾아보고, 공부한 기억을 더듬어 글을 작성해보려 한다. DCGAN은 CNN을 GAN에 처음으로 적용시킨 똑똑해진 생성 모델이다. 발전된 GAN 모델로써 처음 등장했다고 볼 수 있다. GAN에 대한 내용을 알고 있어야 하는건 당연하다. 간단히 요약하면! Generative Adversarial Networks의 약자인 "GAN"은 학습 데이터들의 분포를 학습해, 같은 분포에서 새로운 데이터를 생성할 수 있도록 Deep Learning 모델을 학습시키는 프레임워크라고 할 수 있다. Generator와 Discriminator가 적대적으로 싸우면서 각자의 역할을 충실히 해내며 데이터를 생성해내는 모델인데,..

Background 논문의 제목에서 알 수 있다시피 Instance segmenation 기반의 접근을 통해서 병리 이미지에 대한 Multi object detection과 그리고 병변 위치를 localization 할 수 있도록 해보자! 하는 그런 연구의 논문이다. 논문의 Method를 이해하기 전 알고 가면 좋을 내용이 있다. 우선, 본 논문은 자동 진단 시스템과 관련된 task를 다루는 논문이다. 자동 진단 시스템은 점점 더 발전하고 있고, 본 논문 이전에도 진단 자동화와 관련된 연구는 무척 많았기 때문에, 이전 연구들이 고안해낸 시스템들의 한계를 언급하면서 시작하고 있다. 1. 자동화된 시스템으로 진단을 하게 되면, 시스템이 보통은 이전에 진단을 내려본 경험이 있는 병들로만 진단을 내리게 된다. ..

Oversampling !!오버 샘플링의 기본 전략은 소수 클래스를 잘 설명하는 가상의 관측치를 생성하는 것임. 1. Resampling - 기존에 가지고 있는 소수 클래스의 개수가 매우 적음 - 기존 관측치 복제 - 적은 수의 관측치를 계속 복제한다고 해서, 새로운 정보를 얻기는 한계가 있음 - 소수 클래스에 과적합될 수 있음 2. SMOTE - 소수 클래스의 분포를 가장 잘 설명할 수 있도록! ** 수행 절차 1. 소수 클래스에서 각 관측치마다 k개의 주변 관측치 탐색 2. 랜덤하게 주변에 있는 관측치들 중 하나를 선택 3. 선택된 두 관측치(자기 자신&주변) 사이의 거리를 산출 4. 아래의 식을 만족하는 곳에 새로운 관측치 생성 분류 경계선 수정됨. 3. Borderline-SMOTE - 관측치는 ..

Data quality 측면에서 Event Logs는 무척 중요하다. Event Logs를 만드는 데 있어서 전처리는 무척 중요하다.. 언제나! Pareto principle! 필수적인 3요소는 CaseID, Activity, Timestamp Activity * Activity 측면에서 고려해야할 부분은 Event abstraction이다. * 낮은 레벨 의 Activity의 Event를 높은 레벨의 이벤트로 추출하는 것은 무척 중요하다. - Supervised Learning의 경우 Ex) Time Series 데이터에서 짧은 간격의 time interval은 하나로 Grouping - Unsupervised Learning의 경우에는 자주 발생하는 Pattern을 Grouping하는 것이 일반적이다..