Vamos apresentar John: ele é novo na equipe e foi escolhido para trabalhar com Sandra, especialista em serviços de dados da SAP, para trabalhar em um novo projeto de integração.

O Data Services fornece vários objetos que são usados ao criar aplicativos de integração e qualidade de dados.
Os objetos principais
Antes de poder criar seu processo de transferência de dados, você precisará criar uma estrutura de projeto.
Um projeto é composto por um ou mais jobs que podem ser divididos em diferentes workflows.
No job, ou no fluxo de trabalho, você poderá projetar o processo de ETL real em um fluxo de dados.
Deixe-me resumir desta forma:


O fluxo de dados é composto principalmente por uma fonte (de onde os dados vêm) e um destino (para onde os dados vão).
Essas fontes e destinos podem ser de dois tipos diferentes:
- Armazenamento de dados (Bancos de dados, Aplicativos, Serviços Web...)
- Arquivos (formatos) (arquivos simples, arquivos HDFS, pastas de trabalho do Excel...)
Nota
Você pode projetar uma grande variedade de transformações nos dados de origem aplicando transformações.
Essas transformações são armazenadas em quatro categorias diferentes:
- Plataforma: transformações principais que buscam dados e executam alguns cálculos ou validações básicas
- Integrador de dados: usado principalmente no design do Data Warehouse/Data Mart. Gera novos dados ou modifica a estrutura dos dados de origem.
- Qualidade de dados: aplique modificações para concluir, depurar ou ampliar os dados de origem.
- Processamento de dados de texto: para análise de texto.
Nota
Aqui está um exemplo de um fluxo de dados consultando dados de um arquivo simples e armazenando o resultado em uma tabela. A transformação da consulta é a mais usada das transformações da plataforma.

Além desses objetos essenciais, você também pode importar de armazenamentos de dados ou criar funções. Essas funções podem ser usadas em qualquer expressão que você precise escrever para filtrar ou calcular alguns dados novos, por exemplo.

A biblioteca de objetos local
Todos os objetos principais que eu apresentei podem ser encontrados na Biblioteca de Objetos Local.

A maioria dos objetos criados no Data Services está disponível para reutilização.
Depois de definir e salvar um objeto reutilizável, o Data Services armazena a definição no repositório (a Biblioteca de objetos local). Você pode reutilizar a definição conforme necessário criando chamadas para ela.
Por exemplo, um fluxo de dados dentro de um projeto é um objeto reutilizável. Vários jobs, como um job de carga semanal e um job de carregamento diário, podem chamar o mesmo fluxo de dados. Se este fluxo de dados for modificado, ambos os jobs chamam a nova versão do fluxo de dados.
Você pode editar objetos reutilizáveis a qualquer momento, independentemente do projeto aberto atual. Por exemplo, se você abrir um novo projeto, pode abrir um fluxo de dados de outro projeto e editá-lo. As modificações efetuadas no fluxo de dados não são armazenadas até serem salvas.
Os objetos de orquestração
Projeto, job e fluxo de dados são os três principais componentes para projetar um processo de transferência de dados. Mas, claro, você pode precisar criar fluxos mais complexos.
Outros objetos úteis
- Scripts: para executar alguma lógica antes ou depois de executar um fluxo de dados (instanciando um valor de variável, por exemplo).
- Condições: para executar fluxos de trabalho ou fluxos de dados dependendo das condições (valor da variável ou existência de arquivo, por exemplo).
- Enquanto loops: para executar um fluxo de trabalho ou um fluxo de dados várias vezes.
- Tente Interceptar: para gerenciar exceções em seus fluxos de dados.
Esses objetos não são armazenados no repositório e, por isso, não são reutilizáveis. Os objetos de utilização única só aparecem como componentes de outros objetos. Eles operam apenas no contexto em que foram criados. Os objetos de utilização única não podem ser copiados.