Explicación de SAP Data Services

Acceso a datos

Desarrollo de puestos de trabajo y flujos de datos

Resolución de problemas de tareas por lotes

Uso de funciones, scripts y variables

La consulta de datos con la plataforma se transforma

Dividir y combinar datos con transformaciones de plataforma

Manejo de errores y recuperación de fallas

Actualizando datos

Diseño de escenarios ETL avanzados mediante transformaciones de SAP Data Services Integrator

Optimización del rendimiento

Descripción del modelo de objeto

Objective

After completing this lesson, you will be able to diferenciar objetos de SAP Data Services

Objetos de Data Services

Presentemos a John: es nuevo en el equipo y ha sido elegido para trabajar con Sandra, una experta en SAP Data Services, para trabajar en un nuevo proyecto de integración.

Data Services proporciona varios objetos que se utilizan al crear aplicaciones de integración y calidad de datos.

Los objetos principales

Antes de poder diseñar su proceso de transferencia de datos, deberá crear una estructura de proyecto.

Un proyecto consta de uno o más jobs que se pueden dividir en diferentes flujos de trabajo.

En el job, o en el flujo de trabajo, podrá diseñar el proceso ETL real en un flujo de datos.

Permítanme resumirlo de esta manera :

El flujo de datos se compone principalmente de una fuente (de donde provienen los datos) y un destino (al que van los datos).

Esas fuentes y objetivos pueden ser de dos tipos diferentes :

Almacenes de datos (bases de datos, aplicaciones, servicios web...)
Archivos (formatos) (archivos planos, archivos HDFS, libros de Excel...)

Nota

Solo nos centraremos en bases de datos y archivos planos.

Puede diseñar una gran variedad de transformaciones en los datos de origen aplicando transformaciones.

Estas transformaciones se almacenan en cuatro categorías diferentes:

Plataforma: principales transformaciones que obtienen datos y ejecutan algunos cálculos o validaciones básicos
Integrador de datos: se utiliza principalmente para el diseño de Data Warehouse/Data Mart. Genera datos nuevos o modifica la estructura de los datos fuente.
Calidad de los datos: aplique modificaciones para completar, limpiar o aumentar los datos de origen.
Procesamiento de datos de texto: para el análisis de texto.

Nota

Solo nos centraremos en las dos primeras categorías.

Este es un ejemplo de un flujo de datos que consulta datos de un archivo plano y almacena el resultado en una tabla. La transformación de Query es la más utilizada de las transformaciones de plataforma.

Además de esos objetos esenciales, también puede importar desde almacenes de datos o crear funciones. Estas funciones se pueden utilizar en cualquier expresión que necesite escribir para filtrar o calcular algunos datos nuevos, por ejemplo.

La biblioteca de objetos local

Todos los objetos principales que he presentado se pueden encontrar en la Biblioteca de objetos local.

La mayoría de los objetos creados en Data Services están disponibles para su reutilización.

Después de definir y guardar un objeto reutilizable, Data Services almacena la definición en el repositorio (la Biblioteca de objetos local). Puede reutilizar la definición según sea necesario creando llamadas a ella.

Por ejemplo, un flujo de datos dentro de un proyecto es un objeto reutilizable. Varios jobs, como un job de carga semanal y un job de carga diario, pueden llamar el mismo flujo de datos. Si se modifica este flujo de datos, ambos jobs llaman la nueva versión del flujo de datos.

Puede editar objetos reutilizables en cualquier momento, independientemente del proyecto abierto actual. Por ejemplo, si abre un proyecto nuevo, puede abrir un flujo de datos de otro proyecto y editarlo. Las modificaciones realizadas en el flujo de datos no se almacenan hasta que se guardan.

Los objetos de orquestación

El proyecto, el job y el flujo de datos son los tres componentes principales para diseñar un proceso de transferencia de datos. Pero, por supuesto, es posible que deba crear flujos más complejos.

Otros objetos útiles

Scripts: para ejecutar alguna lógica antes o después de ejecutar un flujo de datos (instanciando un valor de variable, por ejemplo).
Condicionales: para ejecutar flujos de trabajo o flujos de datos en función de las condiciones (valor de variable o existencia de archivo, por ejemplo).
En bucles: para ejecutar un flujo de trabajo o un flujo de datos varias veces.
Intente interceptar: para gestionar excepciones en sus flujos de datos.

Estos objetos no se almacenan en el repositorio y, por lo tanto, no se pueden reutilizar. Los objetos de un solo uso solo aparecen como componentes de otros objetos. Solo operan en el contexto en el que se crearon. Los objetos de un solo uso no se pueden copiar.

Intentémoslo

Le guiaré por la herramienta SAP Data Services Designer y le mostraré cómo funciona:

ExerciseStart Exercise

Si desea probarlo usted mismo, continúe:

ExerciseStart Exercise

Continue to quiz