일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 밀도 기반 이상탐지
- SQL 데이터 분석 첫걸음
- auto encoder
- Fixed Learning
- Meta heuristic
- Condensed neares neighbor rule
- Petri net
- Tomek links
- 프로세스 마이닝
- Grad-CAM
- One-Sided Selection
- Digital Pathology
- 병리 AI
- 국비지원교육
- multi modal
- Inatance segmentation
- GAN
- Data Imbalance
- Text generation
- OCSVM
- Clustering 기반 이상탐지
- Random Undersampling
- XAI
- 거리 기반 이상탐지
- Gausian Density Estimation
- Generative modeling
- 딥러닝
- Process Mining
- Sequence data
- PM4Py
- Today
- Total
목록인공지능 (9)
Create Opportunities

멀티 모달은 여러 가지 다른 유형의 데이터를 동시에 사용하는 기술을 말한다. 이를 위한 다양한 Task에 사용되는 데이터는 이미지, 비디오, 음성, 텍스트, 센서 등 다양한 유형의 비정형 데이터가 해당될 수 있다. 다양한 정보의 조합으로 이루어진 데이터를 활용하여 기계 학습 모델의 정확성을 높일 수 있다. 멀티 모달은 다양한 분야에 적용된다. 아래와 같이 예를 들어볼 수 있다. 1. 음성 인식 및 자연어처리(NLP) - 음성과 텍스트를 결합하여 높은 수준의 자연스러운 대화 인터페이스 구현 - 대화 중 발생하는 다양한 모드의 정보를 고려하여 의도 파악 및 응답 생성 - 감정 분석, 문장 분류 등을 통한 다양한 정보를 활용하여 높은 정확도 달성 2. 영상 인식 - 이미지, 비디오 데이터를 활용하여 물체 인식..

가장 많이 사용되는 eXplainable AI인 SHAP에 대한 내용이다. SHAP To explain the prediction of a data point "x" by computing the contribution of each feature to the prediction. SHAP은 Cooperative(=Coalitional) Game Theory에 기반이 된다. 쉽게 말해서, 각 변수들이 Player가 되는 것이다. 이들 각각이 y에 어떠한 기여를 했는가! 를 보고자 하는 것이다. SHAP을 이해하기 위해서는 shapley value를 먼저 알아야 한다. 이득을 공평히 나누자 는 것이 핵심 아이디어이다. SHAP의 수식은 아래와 같다. SHAP은 LIME은 지키지 못했던 세 가지 원칙을 지킨..

설명 가능한 인공지능을 배운다. The results of the solution can be understood by humans. The process of generating human-understand explanations. Understand the cause of a decision. The process of giving explanations to humans. 왜 필요할까? 1. Help building trust : 2. Promote safety : 3. Allow for contestability 신뢰 / 안정성 보장 / Black box 모델은 Rule based도 아니고, 일련의 추론 과정을 설명하지 않기 때문 인공지능이 설명력을 갖춘다면, 뭘 어떻게 갖출건데? 1. Simu..

메타 휴리스틱이 무엇인가 천천히 알아보자. 자료구조를 공부하면 BFS, DFS를 배운다. 이들은, 최적을 보장하는 Exhaustive한 완전 탐색(Full-space search) 알고리즘이다. 이렇게 어떻게든 최적의 결과를 도출할 수 있는 알고리즘이 필요한 경우가 있겠지만, "효율"을 중시한다면? 더 빠르게 적당히 좋은 결과를 도출하고 끝내버리는게 좋을 수도 있겠다. Heuristic이라는게 그거다. 근사 최적해. 즉 local optimal을 빠르게 찾고자 하는 방법이다. 휴리스틱이라 하면 "감"이라는 말이 떠오른다. 그냥 감으로 때려 맞추는 것도 휴리스틱이라고 할 수 있겠다. 휴리스틱 알고리즘에 해당되는 Greedy search 기법에는 최적해를 보장하는 알고리즘도 존재하긴 한다. Minimum S..

Oversampling !!오버 샘플링의 기본 전략은 소수 클래스를 잘 설명하는 가상의 관측치를 생성하는 것임. 1. Resampling - 기존에 가지고 있는 소수 클래스의 개수가 매우 적음 - 기존 관측치 복제 - 적은 수의 관측치를 계속 복제한다고 해서, 새로운 정보를 얻기는 한계가 있음 - 소수 클래스에 과적합될 수 있음 2. SMOTE - 소수 클래스의 분포를 가장 잘 설명할 수 있도록! ** 수행 절차 1. 소수 클래스에서 각 관측치마다 k개의 주변 관측치 탐색 2. 랜덤하게 주변에 있는 관측치들 중 하나를 선택 3. 선택된 두 관측치(자기 자신&주변) 사이의 거리를 산출 4. 아래의 식을 만족하는 곳에 새로운 관측치 생성 분류 경계선 수정됨. 3. Borderline-SMOTE - 관측치는 ..

Sampling method는 두 가지로 나뉘어진다. Under sampling : Majority class의 sample 수를 줄여. Over sampling : Minority class의 sample 수를 늘려. 1. Random undersampling : Majority class sample 수를 '임의로' 줄여. > Majority class에 overfitting 방지. 하지만, random seed에 따라 다양하게 결과가 도출됨. 2. Tomek links : 두 범주 사이를 탐지하고, 정리를 통해 부정확한 분류 경계선을 방지한다. x_i : 다수 클래스, x_j : 소수 클래스 d(x_i, x_k) < d(x_i, x_j) 또는 d(x_j, x_k) < d(x_i, x_j)가 되는 관..

부족한 레이블 데이터를 기준으로 어떻게 문제를 해결할 것인가, 1. 불균형 데이터의 특징 - Small disjuncts : 작은 군집의 데이터가 섞임 - Lack of density : 두 클래스가 있을 때, 특정 클래스의 데이터가 퍼져 있는 경우 (밀도가 상대적으로 sparse) - Overlapping or class separability (아래 이미지 참고) - Noisy data : 어떠한 기준에 의해 판별되는 값이 아니라, Outlier 그 이상의 오류값. Data handling 과정에서 발생 - Borderline examples : 정확도가 높은 학습 모델을 구축하기 어려운 case - Data shift : 데이터 분포의 형태가 점차 변화하는 경우 > 학습 모델 구축 어려움. 2. 데..