일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Inatance segmentation
- 딥러닝
- 국비지원교육
- Sequence data
- 병리 AI
- XAI
- One-Sided Selection
- Fixed Learning
- Text generation
- PM4Py
- multi modal
- OCSVM
- Grad-CAM
- Process Mining
- auto encoder
- Data Imbalance
- Tomek links
- Clustering 기반 이상탐지
- Meta heuristic
- Generative modeling
- GAN
- Condensed neares neighbor rule
- Random Undersampling
- Gausian Density Estimation
- 거리 기반 이상탐지
- Digital Pathology
- 프로세스 마이닝
- SQL 데이터 분석 첫걸음
- Petri net
- 밀도 기반 이상탐지
- Today
- Total
목록데이터 애널리틱스 (9)
Create Opportunities

Auto Encoder를 활용하는 데 있어서 두 가지 측면을 고려해볼 수 있다. 첫 번째로는 Dimension reduction. 차원이 축소되는 부분, 두 번째로는 Generative model. Input 으로 돌아가는 부분 이라고 할 수 있다. 일단 Dimension reduction과 관련된 문제 상황을 예로 들어보자. NLP에서의 Embedding을 생각해볼 수 있는데, 음, 먼저 RNN은 input을 Encoding하여 RNN계열의 모델이 학습하고, 다시 output을 Decoding하게 되는데, 이 때 Word2Vec과 같은 Embedding 기법은 차원을 축소하여 Encoding한다. 이 과정을 Dimension reduction이라고 할 수 있겠다. Dimension reduction은 ..

1. Source dataset (Ex. ImageNet) 으로부터 신경망 Pretrained 2. Pretrained 모델로부터 output layer를 제외한 대부분의 요소는 그대로 가져와 새로운 신경망 학습 시작. 3. output layer는 Target에 맞게 새로 추가 4. Target에 적합한 신경망 학습 진행 Transfer Learning은 두 가지로 나누어 볼 수 있다. 1. Fine-Tuning Pretrained로부터 Copy한 부분의 Learning rate는 조금만 학습할 수 있도록 조정, output layer의 학습에 focussing 2. Fixed Learning Pretrained 모델의 Weight를 그대로 활용

Basic RNN Implementation 광운대학교 조민수 교수님의 데이터 애널리틱스 교과목 자료를 참고합니다. Pytorch → RNN 구현의 핵심적인 부분을 쉽게 정리한 내용입니다. 아래의 코드는 간단한 Text generation 과정의 주요 부분입니다. Encoding 함수 정의 # encoding 함수 정의 def string_to_onehot(string): start = np.zeros(shape = n_letters, dtype = int) # 시작 벡터와 end = np.zeros(shape = n_letters, dtype = int) # 마지막 벡터 start[-2] = 1 # 시작 벡터는 [0, 0, ... ,1, 0] end[-1] = 1 # 마지막 벡터는 [0, 0, ... ..

RNN을 배운다. Snapshots을 통해 Hidden state를 추출하고 변환하는 기본적인 신경망은 Dynamic beviors의 특징을 학습하기는 어렵다. Sequence data에 ANN, CNN을 동일하게 적용한다면, 데이터의 특성을 보존하여 학습하기엔 무리가 있다는 소리다. 아얘 불가한 것은 아니고, sliding predictor를 활용하여 CNN으로도 학습할 수 있긴 하다. 이상적으로 위와같이 Infinite-response model을 구축할 수 있으면 좋겠다만, 현실적으로 구현이 불가하다. 위와 같은 Sequence data의 Recursive한 특징을 이용하여 Yt=f(Xr, Yt-1) 로 접근을 해볼 수 있다. 그래서 아래의 그림이 기본 구조이다. 그래서 두 가지를 학습해야 한다. ..

Data quality 측면에서 Event Logs는 무척 중요하다. Event Logs를 만드는 데 있어서 전처리는 무척 중요하다.. 언제나! Pareto principle! 필수적인 3요소는 CaseID, Activity, Timestamp Activity * Activity 측면에서 고려해야할 부분은 Event abstraction이다. * 낮은 레벨 의 Activity의 Event를 높은 레벨의 이벤트로 추출하는 것은 무척 중요하다. - Supervised Learning의 경우 Ex) Time Series 데이터에서 짧은 간격의 time interval은 하나로 Grouping - Unsupervised Learning의 경우에는 자주 발생하는 Pattern을 Grouping하는 것이 일반적이다..

https://kimjaeyoonn.tistory.com/12 에서는 전반적인 프로세스 모델링의 한계점과 이벤트 로그로부터의 프로세스 마이닝을 어떻게 진행할 수 있는지를 살펴보았다. [데이터 애널리틱스] 프로세스 마이닝이란 ? (1) 프로세스 마이닝이란, Data dirven한 ML이나 DM의 Approach와 Process Centric한 BPM 관련된 내용을 모두 아우르는 분야이다. 이벤트로부터 프로세스 모델을 구축하거나, 기존의 모델을 가져와 사용하는 등 kimjaeyoonn.tistory.com 이번 챕터에서는 프로세스 모델을 표현하는 다양한 방식을 살펴본다. Event logs - 케이스들의 집합 - 케이스는 어떠한 Activity의 순서.. (trace) Event Logs의 확장 하나의 이벤..

프로세스 마이닝이란, Data dirven한 ML이나 DM의 Approach와 Process Centric한 BPM 관련된 내용을 모두 아우르는 분야이다. 이벤트로부터 프로세스 모델을 구축하거나, 기존의 모델을 가져와 사용하는 등의 Task를 수행할 수 있다. 프로세스 모델이란, 일정한 로테이션을 통해서 생겨나게 되며 작업들 혹은 세부 프로세스로 구성되어 있다. 이는 행위의 순서, 의사결정 지점, 시간 정보, 작업자 정보 등을 포함한다. 아래의 Petri net은 대표적인 Process model이다. 위 Petri net의 구성요소를 한 번 살펴보면, 1. 토큰 : 프로세스의 현 상태를 나타내는 점 (start에 위치한 점) 2. 활성화 : Transition 실행을 위한 모든 Place에 토큰이 있을..