Introdução à tecnologia Data Warehouse
Veja neste artigo o que é e como funciona a Data Warehouse, tecnologia que permite o agrupamento de grandes volumes de informações otimizados para consulta.
Introdução
Com este artigo teremos como objetivo conhecer um pouco da tecnologia Data Warehouse. O Data Warehouse surgiu principalmente devido às dificuldades que muitas empresas começaram a enfrentar devido a quantidade de dados que suas aplicações estavam gerando e à dificuldade de reunir estes dados de maneira integrada para uma análise mais eficiente. A ideia, então, foi armazenar em um único local, somente os dados considerados uteis no momento de tomar decisões.
Um exemplo que podemos citar são as empresas de transporte aéreo, que através da tecnologia Data Warehouse, podem obter a informação de qual mês do ano há maior procura de voos para São Paulo, ou então, para quais locais os jovens com menos de vinte e cinco anos então viajando através dos meios aéreos.
Conseguindo essas informações em tempo hábil – podemos dizer em outras palavras, antes da concorrência- os responsáveis dessa empresa área podem dispor de voos para São Paulo no mês de maior procura e, em relação aos jovens, fica interessante a disponibilização de vantagens e algum tipo de lazer diferenciado durante a viagem.
De posse dessas informações, os executivos e usuários do Data Warehouse dispõem de mecanismo que possibilita, através de seu velho e volumoso banco de dados, extraírem dados que serão de grande utilidade e que darão maior lucratividade em médio e longo prazo.
O exemplo que mencionamos anteriormente se refere a empresas privadas, mas o Data Warehouse também pode ser usado em empresas governamentais públicas. Tendo em mãos um Data Warehouse, o secretário da saúde pode obter a informação de qual região da cidade ocorreram mais casos de dengue nos últimos dois anos, e em quais meses desse ano ocorreu o maior índice desses vírus.
Surgiram avanços na tecnologia da informação para garantir a possibilidade das empresas manipularem grandes volumes de dados e dessa forma atingirem um alto índice de integração. Dados de todos os setores de uma empresa podem estar em uma única base de dados, integrados, padronizados e resumidos para serem analisados pelos tomadores de decisões.
O que é um Data Warehouse
Segundo Willian H. Inmon (1997), que foi um dos primeiros no assunto Data Warehouse, Data Warehouse é uma coleção de dados orientados por assunto, integrado, variável com o tempo e não volátil, que tem por objetivo dar suporte aos processos de tomada de decisões.
Podemos dizer também dizer, em outras palavras, que um Data Warehouse é um banco de dados contendo dados extraídos do ambiente de produção da empresa, que foram selecionados e depurados, tendo sido otimizados para processamentos de consultas e não para processamento de transações. Em geral, Data Warehouse necessita da consolidação de outros recursos de dados, além dos armazenados em bancos de dados relacionais, incluindo informações contidas em planilhas eletrônicas, documentos de texto, etc.
Para Campos (1999): É importante considerar, no entanto, que um Data Warehouse não possui apenas dados resumidos, pode conter também dados primitivos. É importante disponibilizar ao usuário a capacidade de aprofundar-se num determinado tópico, investigando níveis de agregação menores ou mesmo dados primitivos, possibilitando também a geração de novas agregações ou correlações com outras variáveis. Além do mais, é extremamente difícil prever todos os possíveis dados resumidos que serão necessários: limitar o conteúdo de um Data Warehouse apenas a dados resumidos significa limitar os usuários apenas às consultas e analises que eles puderem antecipar diante de seus requisitos atuais, não deixando qualquer flexibilidade para nossa necessidades.
Vejamos a imagem de tabela que contém uma comparação entre as características dos bancos de dados operacionais com um Data Warehouse.
Figura 1: Tabela de comparação entre as características dos bancos de dados operacionais com um Data Warehouse
O Data Warehouse é a base do processamento dos SADs. Por possuir uma única fonte de dados integrados, e uma vez que os dados apresentam condições facilitadas de acesso e interpretação, a tarefa do analista de SAD no Data Warehouse fica incomensuravelmente mais fácil do que no ambiente clássico.
Características
- Orientado a assunto: O Data Warehouse armazena informações do assunto específicos importantes para o negócio da empresa. Exemplos básicos de assuntos são: produtos, atividades, contas e outros. Em contrapartida, o ambiente é organizado e operacional por aplicações funcionais. Podemos tomar como exemplo uma organização bancária, estas aplicações incluem empréstimos, investimentos e seguros.
- Integrado: Um dos aspectos mais importantes do Data Warehouse é que os dados criados dentro de um ambiente Data Warehouse são integrados, sempre, com nenhuma exceção. A integração mostra-se em diferentes maneiras na convenção consistente dos nomes, na forma consistente das variáveis, na estrutura consistente de códigos, nos atributos físicos consistentes dos dados, etc. Por exemplo, vamos considerar sexo como um elemento de dado. Uma aplicação pode codificar sexo como F/M, outra como 0/1 e uma terceira como H/M. Conforme os dados sejam adicionados para o Data Warehouse, eles são convertidos para um estado uniforme, ou seja, sexo é codificado de apenas uma maneira. Do mesmo modo que um elemento de dado é medido em centímetros em uma aplicação, em polegadas em outra, ele será convertido para uma representação única ao ser colocado no Data Warehouse.
- Não volátil: Significa que o Data Warehouse permite apenas a inserção inicial dos dados e consultas a estes dados. Depois de serem integrados e transformados, os dados são carregados em bloco para o Data Warehouse, para que fiquem disponíveis aos usuários para acesso. No ambiente operacional, ao contrário, os dados são, em geral, atualizados registro a registro, em diversas transações. Esta volatilidade requer um trabalho considerável para assegurar integridade e consistência através de atividades de rollback, recuperação de falhas, commits e bloqueios. Um data Warehouse não necessita esse grau de controle típico dos sistemas orientados a transações.
- Granularidade: Refere-se ao nível de detalhes ou de resumo contido nas unidades de dados existentes no Data Warehouse. Quanto maior o nível de detalhes, menor o nível de granularidade. O nível de granularidade afeta diretamente o volume de dados armazenado no Data Warehouse e ao mesmo tempo o tipo de consulta que pode ser respondida.
Variante no tempo: Refere-se ao fato do dado em um Data Warehouse referir-se a algum momento específico, significando que ele não é atualizável, enquanto que o dado de produção é atualizado de acordo com a mudança de estado do objeto em questão, refletindo, em geral, o estado do objeto no momento do acesso. Em um Data Warehouse, a cada ocorrência de uma mudança, uma nova entrada é criada, para marcar esta mudança. O tratamento de séries temporais apresenta características especificas, que adicionam complexidade ao ambiente do Data Warehouse. Os processamentos mensais ou anuais são simples, mas dias e meses oferecem dificuldades devido as variações encontradas no número de dias em um mês ou em um ano, ou ainda no início das semanas dentro de um mês. Além disso, deve-se considerar que não apenas os dados têm um característica temporal, mas também os metadados, que incluem definições dos itens de dados, rotinas de validação, algoritmos de derivação, etc. Sem manutenção do histórico dos metadados, as mudanças das regras de negócio que afetam os dados no Data Warehouse são perdidas, invalidando dados históricos.
Arquitetura
Para um Data Warehouse ser útil, deve ser capaz de responder a consultas avançadas de modo rápido, sem deixar de exibir detalhes relevantes à resposta. Para isso, deve possuir uma arquitetura que nos permita coletar, manipular e apresentar os dados de maneira eficiente e rápida. Porém, construir um Data Warehouse eficiente, que serva de suporte a decisão para empresa, exige mais do que simplesmente transferir ou copiar os dados dos sistemas atuais para um banco de dados maior. Devemos considerar que os dados provenientes de vários sistemas podem conter redundância e diferenças, então antes de passa-los para o Data Warehouse é necessário aplicar filtros sobre eles.
O estudo de uma arquitetura permite compreender como o Data Warehouse faz para armazenar, integrar, comunicar, processar e apresentar os dados que o usuário utilizará em suas decisões. Um Data Warehouse pode variar sua arquitetura conforme o tipo de assunto abordado, pois as necessidades também variam de empresa para empresa.
A arquitetura de um Data Warehouse é composta por ferramentas para extrair dados de múltiplas bases de dados operacionais e fontes existentes; limpar, transformar e integrar esses dados, carrega-los até o Data Warehouse e periodicamente fazer o refresh, isso é, propagar as atualizações ocorridas nas múltiplas bases de dados operacionais. Em adição ao Data Warehouse principal, pode haver diversos Data Warehouse departamentais, que são denominados Data Marts.
Os dados no Data Warehouse e Data Marts são armazenados e gerenciados por um ou mais servidores de Data Warehouse, os quais apresentam visões multidimensionais de dados para uma variedade de ferramentas front end. Finalmente há um repositório para armazenar e gerenciar metadados.
Figura 2: Arquitetura do Data Warehouse
Conclusão
Neste artigo, concluímos que as novas tecnologias como o Data Warehouse, permitem aos administradores descobrirem novas formas de diferenciar suas empresa numa economia globalizada, deixando-os mais seguros para definirem as metas e adotarem diferentes estratégias em sua organização, conseguindo assim visualizarem, antes de seus concorrentes, novos mercados e oportunidades, atuando de maneiras diferentes conforme o perfil de seus consumidores.
Abraço a todos.
Leia também: https://www.devmedia.com.br/data-warehouse/12609
Artigos relacionados
-
Artigo
-
Artigo
-
Artigo
-
Artigo
-
Artigo