ETL como a própria tradução já diz é um processo de extração, transformação e carga, para a construção de um Data Warehouse ou Data Mart.
O processo de ETL (Extract, Transform and Load) é um processo que exige esforço e a maior parte do tempo de construção de um Data warehouse, este processo vai extrair dados de fontes de dados heterogêneas e tem que alimentar o Data Warehouse de forma homogênea e concisa, pois vai servir de base para gerar relatórios e gráficos de apoio à decisão para a gerencia da corporação e não pode trazer resultados errôneos.
Esse processo deve definir claramente quais informações são relevantes e que farão parte dos dados que vão alimentar o Data Warehouse, que deverá ter a estrutura desenhada com relação aos dados que serão extraídos dos vários sistemas e as informações que devem ser geradas a partir deste repositório.
Depois de selecionados os dados que serão carregados no Data Warehouse, vem a parte de tratamento ou transformação e limpeza dos dados, que consiste em padronizar os dados com relação ao tamanho e tipo, substituição de caracteres estranhos, correção de erros de digitação, comparação fonética para evitar duplicidade de informações, por exemplo o mesmo nome escrito de formas diferentes, com ou sem acentuação etc., substituição de dados não preenchidos por “Não Informado” por exemplo, padronização de unidades de medida, pois em determinado sistema pode ter a unidade informada em metros em outro sistema ter a unidade informada em polegadas, posso ter unidades com 3 casas decimais num sistema e no outro ter 4 casas decimais; devemos também tratar as diferentes definições de informação, por exemplo ter em um sistema a definição de H para homem e M para mulher, em outro sistema tenho M para masculino e F para feminino, em casos como esses deve-se optar pela definição mais usual dos sistemas de origem e torná-la padrão para a alimentação do Data Warehouse.
Figura 1. Visão do ETL.
Este processo deve ser bem analisado e homologado por profissionais com função específica de análise de negócios, apresentando os resultados aos gerentes e diretores para aprovação das informações que serão inseridas no Data Warehouse de forma concisa e confiável.
Depois desse processo vem à parte da carga, a parte em que a ferramenta de ETL vai extrair os dados das várias fontes selecionadas, tratá-los através das definições feitas a partir de análises detalhadas dos dados de origem e carregá-los no Data Warehouse para que sejam lidos e apresentem os resultados, mas, para isso é necessário saber o volume de dados que será extraído e transformado, o tempo necessário para a extração de dados dos vários sistemas de origem, o tempo necessário para a transformação de forma que não comprometa a performance dos sistemas de origem.
Essa carga normalmente é programada para ser executada diariamente, nos horários de menor utilização dos sistemas que vão alimentar o Data Warehouse, mas pode ser programada para ser executada mais vezes ao dia conforme a necessidade de análise dos resultados, mas sempre observando a questão de performance para não comprometer os outros sistemas como informado acima.
Espero que estas poucas linhas tenham dado uma ideia de como funciona uma ferramenta de ETL e como processo de criação do Data Warehouse. Até o próximo artigo.
Bibliografia:
(Decisões com B.I. de Fábio Vinicius Primak - Ed. Ciência Moderna).
http://www.fsma.edu.br/si/Artigos/V2_Artigo1.pdf
http://www.infobras.com.br/portugues/produtos_conceito_etl.asp