Atenção: esse artigo tem um vídeo complementar. Clique e assista!

De que se trata o artigo

Este artigo apresenta o componente Data Profiling Task e a ferramenta Data Profile Viewer, que fazem parte do SQL Server 2008 Integration Services, e podem ser usados na verificação da qualidade das fontes utilizadas em uma Integração de Dados, como por exemplo, em um projeto de Data Warehouse.


Para que serve

A qualidade das decisões tomadas no mundo empresarial é influenciada diretamente pela qualidade das informações disponíveis. A construção de um Data Warehouse para o auxílio na tomada de decisões deve ser baseada em informações de alta qualidade para que o sucesso neste tipo de projeto seja alcançado.

Em que situação o tema é útil

O assunto abordado neste artigo é útil na elaboração de projetos que sejam baseados na Integração de Dados, principalmente com foco na criação de um Data Warehouse, onde a qualidade das informações envolvidas é de extrema importância.

Resumo DevMan

A construção de um Data Warehouse (DW) é um caminho natural para as empresas que buscam conhecer melhor seu próprio negócio. O fato de se poder contar com um repositório centralizado que responda às questões rotineiras de modo fácil e rápido e que permita a construção de relatórios pontuais, faz com que as tarefas de gestão sejam desempenhadas com maior precisão. Neste contexto, o objetivo deste artigo é demonstrar o uso do componente Data Profiling Task e da ferramenta Data Profile Viewer, que fazem parte do SQL Server 2008 Integration Services, na construção de um Data Warehouse, levando em consideração a qualidade das informações utilizadas.

A administração de um negócio pode requerer mais do que a intuição dos seus dirigentes. Informações concretas, que retratam o andamento da empresa, são a chave para o sucesso nas tomadas de decisão. A qualidade destas decisões é influenciada diretamente pela qualidade das informações que são colocadas à disposição dos dirigentes. A baixa qualidade destas informações pode mascarar certos fatos e levar a decisões equivocadas, que podem resultar em sérios problemas para a empresa.

A construção de um Data Warehouse (DW) é um caminho natural para as empresas que buscam conhecer melhor seu próprio negócio. O fato de se poder contar com um repositório centralizado que responda às questões rotineiras de modo fácil e rápido e que permita a construção de relatórios pontuais, faz com que as tarefas de gestão sejam desempenhadas com maior precisão. Entretanto, deve-se levar em conta a qualidade das informações armazenadas. Dados incompletos, desatualizados, duplicados, inconsistentes, são exemplos de problemas que podem levar um projeto de Data Warehouse a falhar no seu principal objetivo, o de auxiliar na tomada de decisões, por oferecer informações de baixa qualidade.

Neste contexto, o objetivo deste artigo é demonstrar o uso do componente Data Profiling Task e da ferramenta Data Profile Viewer, que fazem parte do SQL Server 2008 Integration Services, na construção de um Data Warehouse, levando em consideração a qualidade das informações utilizadas. No exemplo fornecido, são abordadas as formas de se verificar as fontes de dados, tanto para tomar as melhores decisões no momento de projetar o Data Warehouse quanto para desenvolver os procedimentos corretos para a integração dos dados.

SQL Server 2008 Integration Services (SSIS)

A integração de dados na construção da maioria dos data warehouses ainda depende do tradicional processo de ETL, do inglês Extract Transform Load (Extração Transformação Carga). Durante o processo de ETL os dados são extraídos das fontes de dados, transformados de acordo com as exigências para se adaptar ao projeto e finalmente carregados no data warehouse.

A realidade atual, com o crescimento do número de fontes de dados utilizadas (com diferentes níveis de confiabilidade), vem transformando os requisitos para a integração de dados. Neste rápido crescimento e mudança de cenário, a necessidade de se agregar valor aos dados e de se poder confiar nestes valores nunca foi tão importante.

Neste âmbito, o SSIS fornece uma arquitetura que proporciona uma integração de dados eficaz nos atuais ambientes de negócio. Ele pode ser usado como uma ferramenta completa de ETL. A sua arquitetura permite a extração de dados de múltiplas fontes, a execução de transformações complexas e o armazenamento dos dados em múltiplos destinos.

O SSIS possui integração com técnicas de data mining (veja a Nota DevMan 1) para as tarefas de análise dos dados. Com a aplicação destas técnicas, o SSIS descobre padrões nos dados e utiliza estes padrões para prever quais dados pertencem ao conjunto analisado e quais são potencialmente anomalias. Por exemplo, um campo que contenha o Código de Endereçamento Postal (CEP), o qual deve ser composto por 5 dígitos numéricos, 1 separador e mais 3 dígitos numéricos. Baseado no conteúdo de tal campo, o SSIS identifica quais são os valores que fogem ao padrão (um CEP incompleto).

Nota DevMan 1. Data Mining

Segundo J. Han e M. Kamber, Data Mining, ou Mineração de Dados, consiste em técnicas utilizadas para se extrair (descobrir) conhecimento de grandes quantidades de dados.

Uma das alternativas para se avaliar a qualidade da informação é a técnica chamada data profiling, que se baseia em traçar o perfil dos dados. Um perfil de dados é uma coleção de dados estatísticos sobre as informações em questão. Estes dados estatísticos podem incluir o número de linhas contidas na tabela, o número de valores distintos em uma determinada coluna, o número de campos em branco ou nulos, a distribuição de valores em um determinado campo, a dependência direta entre dois campos, como por exemplo cidade e CEP, etc.

...
Quer ler esse conteúdo completo? Tenha acesso completo