Create Opportunities

[데이터 애널리틱스] Event Logs 본문

데이터 애널리틱스

[데이터 애널리틱스] Event Logs

kimjaeyoon 2022. 10. 3. 13:54

Data quality 측면에서 Event Logs는 무척 중요하다.

 

Event Logs를 만드는 데 있어서 전처리는 무척 중요하다.. 언제나! Pareto principle!

 

필수적인 3요소는 

CaseID, Activity, Timestamp

 

Activity

* Activity 측면에서 고려해야할 부분은 Event abstraction이다. 

* 낮은 레벨 의 Activity의 Event를 높은 레벨의 이벤트로 추출하는 것은 무척 중요하다. 

- Supervised Learning의 경우

Ex) Time Series 데이터에서 짧은 간격의 time interval은 하나로 Grouping

- Unsupervised Learning의 경우에는 자주 발생하는 Pattern을 Grouping하는 것이 일반적이다. 

Ex) Trace segmentation, Clustering, Word embedding ...

 

 

Timestamp

Timestamp는 꼭 필요한 경우가 아닐 때도 있음.

Activity의 순서가 중요하지 않은 경우가 있을 수도 있으니깐,

정의1(Simplified Event Log) : Trace가 액티비티의 순서로 구성된 경우

정의2(Event Log) : 상세하게 각각의 이벤트를 정의한 경우 <E, #, r>

 

 

 부연적인 Attributes

- Case attributes : 케이스에 부가적으로 나타나는 속성 (변하지 않음) ex) 환자의 나이, 성별...

- Event attributes : 이벤트에 의존해서 나오는 속성 ex) 검사의 resource, 검사의 종류...

 

 

Event types는 누적될 수 있다. 뭔 말이냐면, 같은 activity에 대해서도 event type이 다를 수 있고, 이들이 쌓일 수 있다고.

 

Event log는 어디서 얻을 수 있냐,

BPMS에서 얻으면 제일 best!

일반적으로는 ERP/CRM에서 얻음. Operational databases 혹은 data warehouses가 있으면, Process Mining에 적용할 수 있음.

IoT, Web data도 PM에 적용하기에 적합한 형태이다. 

 

테이블 형태로 구성될 수도 있지만, 아래와 같은 형태가 일반적이다.

Event log standards

 

데이터의 퀄리티는 정말 중요하다.

이벤트 로그 데이터의 퀄리티도 참 중요한데,, 이와 관련된 연구가 많다.

Data quality management

그 예시로는 아래의 것들이 있음.

1. Distorted labels : 동일한 리소스의 경우, 동일한 Label로 변경

2. Inadvertent time travel

3. Polluted activity label : 동일한 Activity의 경우, 동일한 Label로 변경