✒️SAP BI / BW BO Introducción al ETL
SAP BI / BW BO Introducción al ETL
Proceso ETL: es un flujo de datos para extraer, transformar y cargar datos desde cualquier fuente de datos en SAP BI.
Proceso de extraccion: obtiene datos de fuentes de datos heterogeneas (excel, txt, csv, sql server, mysql, etc).
Es importante analizar que datos vamos a utilizar en el proceso de transformacion, para asi evitar traer datos innecesarios.
Es muy importante ver que nivel de impacto va a tener este proceso de extraccion en las fuentes de datos porque podemos generar bloqueos/bajas de performance en sistemas altamente transaccionales.
Proceso de transformacion: basado en reglas del negocio, se adaptan los datos extraidos para despues ser cargados en el datawarehouse. Algunas de las modificaciones podrian ser:
- codificacion: es cambiar el valor original por otro que se va a usar en el datawarehouse. Ej: el valor "chocolate" en el origen deberia ser "CH" en el datawarehouse.
- crear nuevos valores a traves de formulas o reglas. Ej: Importe_Total = importe_producto + impuestos
- crear campos claves, es estandarizar codigos para un mismo elemento pero que vienen de distintas fuentes de datos. Para el mismo producto pero que tiene valores distintos en varias fuentes de datos, se le asigna un nuevo valor univoco en SAP BI mas un prefijo de 3 caracteres para determinar la fuente de datos. Ej: para el producto "vasos" en SAP BI se le asigna un nuevo codigo SAP0087654, EXC0087654, MSQ0087654, ORA0087654, etc. Donde el prefijo dice cual es la fuente de datos
- SAP: hana db
- EXC: excel file
- MSQ: SQL Server db
- ORA: Oracle db
- generar registros calculados para tener los valores listos en el datawarehouse en lugar de tener que hacer los calculo cada vez que se necesiten consumirlos.
- crear nuevas columnas en el destino a partir de una o mas columnas existentes en el origen. Ej: Nombre="Juan" y Apellido="Lopez", pero en el datawarehouse solo almacenamos una sola columna NombreApellido="Juan Lopez".
- poner reglas para que algunos campos que tengan determinados valores, se conviertan a otros valores. Ej: el campo Nombre="Juan#Lopez" del origen, deberia descartar el simbolo #, para que en el datawarehouse solo llegue Nombre="Juan Lopez".
Proceso de carga: es la fase en donde los datos pasan desde la transformacion y se almacenan en el datawarehouse o repositorio de datos destino.
Los datos en el destino se pueden sobreescribir o se pueden anexar para saber como fueron variando a lo largo de los procesos ETL.
Hay 2 tipos de cargas:
- cargas full: es cuando se cargan todos los datos en el destino sin importar si ya existen o no.
- cargas delta: es cuando se cargan solo los datos que se modificaron desde la ultima vez que se hizo la carga. Esto es para evitar cargar todo de nuevo y sobrecargar el datawarehouse.
 
 
 
Sobre el autor
Publicación académica de Simon Murua, en su ámbito de estudios para la Carrera Consultor en SAP BI / BW BO.
Simon Murua
Profesión: Dba Sap Hana - Sql Server - Oracle - Argentina - Legajo: LZ44K
✒️Autor de: 3 Publicaciones Académicas
🎓Egresado de los módulos:
Disponibilidad Laboral: FullTime
Presentación:
Sap hana bi engineer
Certificación Académica de Simon Murua