Utilizando a Ferramenta Mondrian para Processamento de um Data Warehouse
WOLAP com ferramenta open-source
Cada vez mais os administradores de empresas têm a necessidade de analisar e visualizar os dados corporativos independentemente do local onde estejam, sejam em suas casas ou no escritório. Nesse contexto, é necessário rapidez, dinamismo e consistência nos dados para facilitar a tomada de decisão sobre como agir a partir de suas informações.
Como o próprio nome sugere On-Line Analytical Processing (OLAP, em português Processamento Analítico On-Line) tem por finalidade processar grandes quantidades de dados em tempo real. Segundo Kimball(1998), OLAP é um termo criado para descrever uma abordagem dimensional para suporte à decisão, através de uma análise dinâmica e multidimensional dos dados. No entanto, a tecnologia OLAP é somente de visualização de dados que estão numa forma agregada, ou melhor, resumida. Esse resumo é necessário para que se possa analisar os dados dispostos em uma base relacional.
Englobado nos conceitos de OLAP, encontra-se a ferramenta Mondrian, que consiste em um projeto open source que está atualmente na versão 3, desenvolvida pela Pentaho (www.pentaho.com). Mondrian aplica as tradicionais operações OLAP em Esquemas XML. Para definir as consultas na devida base dados, Mondrian utiliza uma outra tecnologia padrão, o MDX (Multidimensional Expressions).
O MDX consiste em uma linguagem semelhante à linguagem SQL (Structured Query Language), foi criada pela Microsoft e introduzida na ferramenta Microsoft SQL Server Services OLAP (Nota DevMan 1), fazendo parte da especificação OLE DB/OLAP API. Porém, o Mondrian não possui um visualizador dos dados multidimensionais, podendo assim ser integrado como uma API em outras ferramentas, como o caso do JPivot (Nota DevMan 2).
Nota DevMan 1. A Ferramenta Microsoft SQL Server OLAP Services
O Microsoft SQL Server Services OLAP, também chamado de Analysis Services, é um servidor baseado em OLAP e mineração de dados (Microsoft, 2008b). Assim como o banco de dados SQL Server, ele possui custo de licença. Esta solução oferece um pacote completo de recursos para aplicação dos conceitos de Inteligência de Negócios, como ainda ETL e DW.
Nota DevMan 2. A Ferramenta JPivot
A tecnologia JPivot é responsável pela camada de apresentação, projetada para trabalhar com vários servidores OLAP, especialmente com o Mondrian. O JPivot é uma ferramenta que através de suas tag libraries permite apresentação e interação com os dados analisados (JPivot 2007), isto é, visualização e manipulação de tabelas, resultado de consultas OLAP.
Este artigo tem como objetivo apresentar a ferramenta Mondrian, assim como explorar os conceitos de BI, mostrando o seu significado e como o usuário pode usufruir de seus recursos no dia-a-dia através de uma exemplificação de uma base de dados de uma vídeo-locadora.
A ferramenta Mondrian utiliza a tecnologia JDBC (Java Database Connectivity), logo é flexível quanto a Sistema Gerenciador de Banco de Dados (SGBD). No exemplo não é citado o SGBD utilizado, pois é deixado a rigor de cada um a escolha deste, sendo utilizada a conexão ODBC (Open Data Base Connectivity) suportada pela tecnologia JDBC.
Data Warehouse (DW)
Conforme Fortulan e Filho (2005), ao longo do tempo os bancos de dados foram desenvolvidos para fins de processamentos de dados operacionais e analíticos, havendo maior ênfase no primeiro caso, ainda que ambos tivessem usuários com diferentes necessidades. Uma vez compreendida essa diferença, foram criados bancos de dados separados para fins analíticos, chamados de Data Warehouse (DW) ou armazém de dados.
Conforme Navathe e Elmasri (2000), os Data Warehouses (ou armazéns de dados) fornecem acesso a dados para análise complexa, descoberta de conhecimento e tomada de decisão. Além disso, eles suportam demandas de alto nível de desempenho de dados e informações em uma organização para vários tipos de aplicações – OLAP, DSS (Decision Support Systems) e Data Mining.
Elmasri & Navathe (2000) definem os passos para o desenvolvimento de um DW:
· Os dados devem ser extraídos de várias fontes, heterogêneas.
· Os dados devem ser formatados para consistência dentro do DW.
· Os dados devem ser limpos para garantir a sua validade (a limpeza de dados é um processo complexo e com muitas implicações).
· Os dados devem ser ajustados ao modelo de dados do DW.
· Os dados devem ser carregados para o DW (ferramentas de monitoramento para cargas, bem como métodos de recuperação de cargas incompletas ou incorretas, são necessárias).
Conhecendo OLAP (On-Line Analytical Processing)
Para manipular um DW é necessária a aplicação de conceitos e tecnologias distintas. Comumente em base de dados tradicionais para operações transacionais são utilizadas tecnologias chamadas de OLTP (On-Line Transaction Processing). Entretanto, no caso de DW, utiliza-se de tecnologias denominadas OLAP OLTP (On-Line Analytical Processing).
Como o objetivo das ferramentas OLAP é permitir análises para examinar os negócios, elas têm requisitos bem particulares se comparadas a outros sistemas de informação, conforme Berson (1997) e Thomsen (2002), tais como:
· Flexibilidade: as análises de negócio devem ter liberdade e facilidade para escolher os dados a serem analisados bem como o formato no qual eles devem ser visualizados;
· Simplicidade: ferramentas OLAP devem prover maneiras simples e intuitivas de confecção de análises para os analistas de negócio;
· Expressividade: a linguagem de consulta utilizada pela ferramenta OLAP deve ser poderosa o suficiente para que o analista consiga extrair informações realmente úteis para o negócio;
· Poder de análise: ferramentas OLAP devem prever um conjunto de operações de agregação e exploração de dados que permitam análises de tendências e comparações complexas utilizando os dados que descrevem o negócio; ...