
Introdução ao ETL
Dados e ETL
Não há data mining sem dados. Para mineração de processos, analisamos dados relacionados a processos utilizando uma ferramenta de mineração especializada para obter insights sobre ineficiências e melhorias de processos.
Os dados do processo estão ocultos em sistemas ERP que capturam dados em tabelas. Isso precisa ser extraído primeiro e, em seguida, transformado em um formato específico antes de poder ser analisado por uma ferramenta de mineração de processos, como o SAP Signavio Process Intelligence.
Com isso em mente, essas próximas seções apresentarão o conceito geral sobre como preparar dados transacionais para mineração. Esse conceito é chamado de ETL e representa:
- Extração de [dados]
- [Dados] Transformação
- [Dados] Carregar
Extração de dados
Então, o que é extração de dados? Em termos de um processo empresarial, isso significa a recuperação de todos os dados relacionados ao negócio dentro do sistema usado para mineração de processos.
Criar um dump de dados é fácil. Mas quais dados são necessários e onde eles são armazenados? Precisamos nos perguntar isso para identificar os dados relevantes a serem extraídos.
Pergunte a si mesmo
- Qual processo é esse?
- Que sistemas de TI são utilizados?
- Qual é o período?
- Quais atividades (eventos) baseadas no sistema são executadas no processo?
- Todas as atividades registradas têm um registro da hora?
- Todas as atividades são rastreadas no sistema de dados?
- Que informações adicionais são necessárias para uma análise (por exemplo, tipo de produto, valor da ordem, etc.)?

Os requisitos mínimos de chave incluem um caso válido com um ID de caso, identificador de nome de evento e um registro da hora para cada evento. Idealmente, o período inclui TODOS os registros, mas isso pode ser um monte de dados. A maioria das empresas definirá o período para um parâmetro menor, como 1 ano.
Sempre que um período limitado for considerado, existirão casos incompletos, uma vez que alguns podem ter sido totalmente executados nesse período. Agora, você deve perguntar se eles devem ser incluídos na extração? Essas perguntas precisam ser respondidas antes da extração de dados.
Exemplo de processo
Vejamos agora como extrair nossos dados. Siga estas 3 etapas para garantir que os dados corretos sejam extraídos.
Extração de dados
Extração de dados de vários sistemas
O processo também pode ser suportado por vários sistemas. Nesses casos, recomenda-se começar pequeno extraindo os dados de um sistema para obter seus primeiros resultados. Mais dados podem ser incluídos para expandir o processo na próxima iteração.
Se os dados forem difíceis de extrair (no caso de sistemas externos) ou se não existir um identificador único para rastrear casos em todo o sistema, você pode combinar dois valores, como o valor da ordem e a hora da ordem. Você também pode reduzir o período do processo se o ID não puder ser criado.