ETL およびデータ変換の概要

Objective

After completing this lesson, you will be able to データの基本 ETL コンセプトの説明

ETL の概要

ETL の概要

ETL の概要

データおよび ETL

データのないデータマイニングはありません。プロセスマイニングでは、専門のマイニングツールを使用してプロセス関連データを分析し、プロセスの非効率性と改善に関するインサイトを取得します。 

プロセスデータは、テーブル内のデータをキャプチャする ERP システムでは非表示になります。これは、SAP Signavio Process Intelligence などのプロセスマイニングツールで分析する前に、最初に抽出してから特定の形式に変換する必要があります。

このことを念頭に置いて、次のセクションでは、マイニング用のトランザクションデータを準備する方法の一般的なコンセプトについて説明します。このコンセプトは ETL と呼ばれ、以下を意味します。

  • [データ] 抽出
  • [データ] 変換
  • [データ] ロード

データ抽出

では、データ抽出とは何でしょうか。 ビジネスプロセスに関しては、プロセスマイニングに使用されるシステム内のすべてのビジネス関連データを取得することを意味します。

データダンプの作成は簡単です。どのようなデータが必要で、どこに保存されますか。抽出する関連データを特定するには、これを自問する必要があります。 

自問してください

  • それはどのプロセスですか?
  • どの IT システムが使用されていますか。
  • 時間枠はいつですか。 
  • プロセスで実行されるシステムベースのアクティビティ (イベント) はどれですか。
  • 記録されたすべてのアクティビティにタイムスタンプがありますか?
  • すべてのアクティビティがデータシステムで追跡されますか。
  • 分析に必要な追加情報 (製品のタイプ、受注額など) は何ですか。
主な要件

キーの最小要件には、ケース ID を含む有効なケース、イベント名 ID、および各イベントのタイムスタンプが含まれます。時間枠にすべてのレコードが含まれるのが理想的ですが、これは大量のデータである可能性があります。ほとんどの会社では、時間枠を小さいパラメータ (1 年など) に設定します。 

限られた時間枠が考慮されるたびに、不完全なケースが発生します。これは、その時間枠で一部が完全に実行された可能性があるためです。抽出に含める必要があるかどうかを尋ねる必要があります。これらの質問は、データ抽出の前に回答する必要があります。 

プロセスの例 

データを抽出する方法について説明します。正しいデータが抽出されるようにするには、以下の 3 つのステップに従います。

データ抽出

複数システムからのデータ抽出

このプロセスは、複数のシステムでサポートすることもできます。このような場合は、1 つのシステムからデータを抽出して小さい方から開始し、最初の結果を取得することをお奨めします。次の反復でプロセスを拡張するために、より多くのデータを含めることができます。

データの抽出が困難である場合 (外部システムの場合)、またはシステム全体でケースを追跡する一意の ID がない場合は、受注額と発注時刻などの 2 つの値を組み合わせることができます。ID を登録できない場合は、プロセス時間枠を削減することもできます。