
ETL 简介
数据和 ETL
不存在不含数据的数据挖掘。对于流程挖掘,我们使用专门的挖掘工具分析流程相关数据,以获取有关流程效率低下和改进的洞察。
流程数据隐藏在捕获表中数据的 ERP 系统中。需要先将其提取,然后转换为特定格式,然后才能通过 SAP Signavio Process Intelligence 等流程挖掘工具对其进行分析。
考虑到这一点,接下来的章节将向您介绍如何准备用于挖掘的事务数据的一般概念。此概念称为 ETL,代表:
- [数据] 提取
- [数据] 转换
- [数据] 加载
数据提取
那么,什么是数据提取? 就业务流程而言,这意味着在用于流程挖掘的系统中检索所有业务相关数据。
创建数据转储非常简单。但是,需要哪些数据?数据存储在哪里?我们需要询问自己以确定要提取的相关数据。
问问自己
- 这是什么流程?
- 使用哪些 IT 系统?
- 时间范围是什么?
- 流程中执行了哪些基于系统的活动(事件)?
- 所有记录的活动是否具有时戳?
- 是否在数据系统中跟踪所有活动?
- 分析需要哪些附加信息(例如产品类型、订单价值等)?

最低关键要求包括具有案例标识、事件名称标识符和每个事件时戳的有效大小写。理想情况下,时间范围包括所有记录,但这可以是大量数据。大多数公司会将时间范围设置为较小的参数,例如 1 年。
只要考虑有限的时间范围,就会存在不完整的案例,因为有些案例可能在该时间范围内完全执行。现在,您必须询问是否应从提取中包含它们?需要在数据提取之前回答这些问题。
流程示例
现在,我们来看看如何提取数据。按照这 3 个步骤确保提取正确的数据。
数据提取
从多个系统提取数据
多个系统也可以支持该流程。在这些情况下,建议从小处开始从一个系统提取数据以获取第一个结果。可包括更多数据以在下一次迭代中展开流程。
如果数据难以提取(如果是外部系统),或者没有用于在整个系统中跟踪案例的唯一标识符,则可以组合两个值,例如订单值和订单时间。如果无法创建标识,还可以缩短流程时间范围。