
Introducción a ETL
Datos y ETL
No hay minería de datos sin datos. Para la minería de procesos, analizamos los datos relacionados con los procesos utilizando una herramienta de minería especializada para obtener información estratégica sobre las ineficiencias y mejoras de los procesos.
Los datos de proceso están ocultos en los sistemas ERP que capturan datos en tablas. Esto primero debe extraerse y luego transformarse en un formato específico antes de que una herramienta de minería de procesos como SAP Signavio Process Intelligence pueda analizarlos.
Teniendo esto en cuenta, estas siguientes secciones le presentarán el concepto general sobre cómo preparar datos transaccionales para la minería. Este concepto se denomina ETL y significa:
- Extracción de [datos]
- [Datos] Transformación
- [Datos] Cargar
Extracción de datos
Entonces, ¿qué es la extracción de datos? En términos de un proceso empresarial, significa la recuperación de todos los datos relacionados con la empresa dentro del sistema utilizado para la minería de procesos.
Crear un volcado de datos es fácil. Pero, ¿qué datos se necesitan y dónde se almacenan? Tenemos que pedirnos esto para identificar los datos relevantes a extraer.
Pregúntese
- ¿Qué proceso es?
- ¿Qué sistemas de TI se utilizan?
- ¿Cuál es el período de tiempo?
- ¿Qué actividades basadas en el sistema (eventos) se ejecutan en el proceso?
- ¿Todas las actividades registradas tienen un cronomarcador?
- ¿Se realiza un seguimiento de todas las actividades en el sistema de datos?
- ¿Qué información adicional se requiere para un análisis (por ejemplo, tipo de producto, valor del pedido, etc.)?

Los requisitos clave mínimos incluyen un caso válido con un ID de caso, un identificador de nombre de evento y un cronomarcador para cada evento. Idealmente, el período incluye TODOS los registros, pero esto puede ser una gran cantidad de datos. La mayoría de las empresas fijarán el período de tiempo en un parámetro más pequeño, como 1 año.
Siempre que se tenga en cuenta un período de tiempo limitado, habrá casos incompletos, ya que algunos pueden haberse ejecutado completamente en ese período. Ahora, debe preguntar si deben incluirse desde la extracción. Estas preguntas deben responderse antes de la extracción de datos.
Ejemplo de proceso
Veamos cómo extraer nuestros datos. Siga estos 3 pasos para asegurarse de que se extraen los datos correctos.
Extracción de datos
Extracción de datos desde varios sistemas
El proceso también puede ser compatible con varios sistemas. En estos casos, se recomienda empezar poco a poco extrayendo los datos de un sistema para obtener sus primeros resultados. Se pueden incluir más datos para expandir el proceso en la siguiente iteración.
Si los datos son difíciles de extraer (en el caso de sistemas externos) o no hay un identificador único para realizar un seguimiento de los casos en todo el sistema, puede combinar dos valores, como el valor y la hora del pedido. También puede reducir el período del proceso si no se puede crear el ID.