Presentemos a John: es nuevo en el equipo y ha sido elegido para trabajar con Sandra, una experta en SAP Data Services, para trabajar en un nuevo proyecto de integración.

Data Services proporciona varios objetos que se utilizan al crear aplicaciones de integración y calidad de datos.
Los objetos principales
Antes de poder diseñar su proceso de transferencia de datos, deberá crear una estructura de proyecto.
Un proyecto consta de uno o más jobs que se pueden dividir en diferentes flujos de trabajo.
En el job, o en el flujo de trabajo, podrá diseñar el proceso ETL real en un flujo de datos.
Permítanme resumirlo de esta manera :


El flujo de datos se compone principalmente de una fuente (de donde provienen los datos) y un destino (al que van los datos).
Esas fuentes y objetivos pueden ser de dos tipos diferentes :
- Almacenes de datos (bases de datos, aplicaciones, servicios web...)
- Archivos (formatos) (archivos planos, archivos HDFS, libros de Excel...)
Nota
Puede diseñar una gran variedad de transformaciones en los datos de origen aplicando transformaciones.
Estas transformaciones se almacenan en cuatro categorías diferentes:
- Plataforma: principales transformaciones que obtienen datos y ejecutan algunos cálculos o validaciones básicos
- Integrador de datos: se utiliza principalmente para el diseño de Data Warehouse/Data Mart. Genera datos nuevos o modifica la estructura de los datos fuente.
- Calidad de los datos: aplique modificaciones para completar, limpiar o aumentar los datos de origen.
- Procesamiento de datos de texto: para el análisis de texto.
Nota
Este es un ejemplo de un flujo de datos que consulta datos de un archivo plano y almacena el resultado en una tabla. La transformación de Query es la más utilizada de las transformaciones de plataforma.

Además de esos objetos esenciales, también puede importar desde almacenes de datos o crear funciones. Estas funciones se pueden utilizar en cualquier expresión que necesite escribir para filtrar o calcular algunos datos nuevos, por ejemplo.

La biblioteca de objetos local
Todos los objetos principales que he presentado se pueden encontrar en la Biblioteca de objetos local.

La mayoría de los objetos creados en Data Services están disponibles para su reutilización.
Después de definir y guardar un objeto reutilizable, Data Services almacena la definición en el repositorio (la Biblioteca de objetos local). Puede reutilizar la definición según sea necesario creando llamadas a ella.
Por ejemplo, un flujo de datos dentro de un proyecto es un objeto reutilizable. Varios jobs, como un job de carga semanal y un job de carga diario, pueden llamar el mismo flujo de datos. Si se modifica este flujo de datos, ambos jobs llaman la nueva versión del flujo de datos.
Puede editar objetos reutilizables en cualquier momento, independientemente del proyecto abierto actual. Por ejemplo, si abre un proyecto nuevo, puede abrir un flujo de datos de otro proyecto y editarlo. Las modificaciones realizadas en el flujo de datos no se almacenan hasta que se guardan.
Los objetos de orquestación
El proyecto, el job y el flujo de datos son los tres componentes principales para diseñar un proceso de transferencia de datos. Pero, por supuesto, es posible que deba crear flujos más complejos.
Otros objetos útiles
- Scripts: para ejecutar alguna lógica antes o después de ejecutar un flujo de datos (instanciando un valor de variable, por ejemplo).
- Condicionales: para ejecutar flujos de trabajo o flujos de datos en función de las condiciones (valor de variable o existencia de archivo, por ejemplo).
- En bucles: para ejecutar un flujo de trabajo o un flujo de datos varias veces.
- Intente interceptar: para gestionar excepciones en sus flujos de datos.
Estos objetos no se almacenan en el repositorio y, por lo tanto, no se pueden reutilizar. Los objetos de un solo uso solo aparecen como componentes de otros objetos. Solo operan en el contexto en el que se crearon. Los objetos de un solo uso no se pueden copiar.