ETL 및 데이터 변환 소개

Objective

After completing this lesson, you will be able to 데이터의 기본 ETL 개념 이해

ETL 소개

ETL 소개

ETL 소개

데이터 및 ETL

데이터가 없는 데이터 마이닝은 없습니다. 프로세스 마이닝을 위해 특수 마이닝 툴을 사용하여 프로세스 관련 데이터를 분석함으로써 프로세스 비효율성과 개선사항에 대한 인사이트를 얻을 수 있습니다. 

프로세스 데이터는 테이블의 데이터를 캡처하는 ERP 시스템에서 숨겨집니다. SAP Signavio Process Intelligence와 같은 프로세스 마이닝 툴에서 분석하려면 먼저 이를 추출한 후 특정 형식으로 변환해야 합니다.

이 점을 염두에 두고 다음 섹션에서는 트랜잭션 데이터 마이닝을 준비하는 방법에 대한 일반적인 개념을 소개합니다. 이 개념을 ETL이라고 하며 다음과 같은 의미를 갖습니다.

  • [데이터] 추출
  • [데이터] 변환
  • [데이터] 로드

데이터 추출

그렇다면 데이터 추출이란 무엇일까요? 비즈니스 프로세스 측면에서는 프로세스 마이닝에 사용되는 시스템 내에서 모든 비즈니스 관련 데이터를 검색하는 것을 의미합니다.

데이터 덤프를 생성하는 것은 쉽습니다. 하지만 어떤 데이터가 필요하고 어디에 저장됩니까? 추출할 관련 데이터를 식별하려면 이 질문을 스스로에게 요청해야 합니다. 

스스로에게 물어보세요

  • 무슨 프로세스인가요?
  • 어떤 IT 시스템이 사용됩니까?
  • 타임프레임은 무엇입니까? 
  • 프로세스에서 실행되는 시스템 기반 액티비티(이벤트)는 무엇입니까?
  • 기록된 모든 액티비티에 타임스탬프가 있습니까?
  • 데이터 시스템에서 모든 액티비티가 추적됩니까?
  • 분석에 필요한 추가 정보(예: 제품 유형, 오더 금액 등)는 무엇입니까?
핵심 요구사항.

최소 키 요구사항에는 케이스 ID, 이벤트 이름 식별자 및 각 이벤트에 대한 타임스탬프와 함께 유효한 케이스가 포함됩니다. 타임프레임에는 모든 레코드가 포함되는 것이 이상적입니다. 하지만 이는 많은 데이터가 될 수 있습니다. 대부분의 회사는 1년과 같이 타임프레임을 더 작은 매개변수로 설정합니다. 

제한된 타임프레임이 고려될 때마다 미완료 케이스가 발생합니다. 일부 케이스는 해당 타임프레임 내에 완전히 실행되었을 수 있습니다. 이제 추출에서 포함할지 여부를 문의해야 합니까? 이러한 질문은 데이터 추출 전에 답변해야 합니다. 

프로세스 예시 

이제 데이터를 추출하는 방법을 살펴보겠습니다. 다음 3단계에 따라 올바른 데이터가 추출되도록 하십시오.

데이터 추출

여러 시스템에서 데이터 추출

이 프로세스는 여러 시스템에서 지원될 수도 있습니다. 이러한 경우 첫 번째 결과를 얻으려면 한 시스템에서 데이터를 추출하여 작게 시작하는 것이 좋습니다. 다음 반복에서 프로세스를 확장하기 위해 더 많은 데이터를 포함할 수 있습니다.

데이터를 추출하기 어렵거나(외부 시스템의 경우) 시스템 전체에서 케이스를 추적하기 위한 고유 식별자가 없는 경우, 두 개의 값(예: 오더 값 및 오더 시간)을 결합할 수 있습니다. ID를 생성할 수 없는 경우 프로세스 타임프레임을 줄일 수도 있습니다.