Uma visão sobre a Qualidade dos Dados

Veja neste artigo: Como ter uma boa visão sobre as Qualidades dos Dados.

Por que eu devo ler este artigo:O artigo trata dos fatores que envolvem a qualidade, dando enfoque a sua importância em áreas de Tecnologia da Informação, tais como em softwares, banco de dados e modelos de bancos de dados, motivo pelo qual muitas empresas ainda lutam para obter sucesso. Também será abordada a importância da qualidade dos dados em Data Warehouse, além de apresentar o processo e as dificuldades na implantação deste processo.

Uma visão sobre a Qualidade dos Dados

A informação tem se tornado um dos mais importantes ativos de uma empresa. Sem informações de qualidade, não se consegue atender clientes de forma correta, tomar decisões adequadas ou obter vantagens de novas tecnologias. O mundo requer informações globais e, cada vez mais, busca a colaboração e a troca de informações entre diferentes órgãos de uma empresa e também entre empresas. O diferencial competitivo de uma empresa é o conhecimento que ela tem para oferecer ao cliente.

Portanto, Data Warehouse (Data Warehouse) constitui uma importante ferramenta de apoio ao processo de tomada de decisões. Mas, para que se possa tirar vantagem dos recursos do Data Warehouse de forma satisfatória, é preciso que as informações nele armazenadas sejam confiáveis, ou que, pelo menos o grau de confiabilidade das mesmas possa ser considerado durante o processo de tomada de decisão.

Para tanto, valorizar a obtenção e a manutenção da qualidade dos dados em Data Warehouse é de grande importância às organizações, porque o custo da má qualidade pode ser alto. Dados de má qualidade podem ser os motivos de falhas nos processos de negócio e custos relacionados às áreas organizacionais, podendo até haver perda parcial ou total de clientes.

Sempre houve uma preocupação com a melhoria dos processos, porém, a busca por produtividade e qualidade está pressionando os envolvidos na produção a atingirem o máximo no que produzem. Através de metodologias e técnicas, são implantados programas de qualidade e produtividade para se atingir as metas.

Qualidade

Quando se fala em produto de qualidade, em geral se refere à sua correção, adequação para o uso e sua aderência a um conjunto pré-determinado de expectativas, à ausência de erros ou, ainda, a falhas no produto. A qualidade está sempre associada aos conceitos de completeza e correção.

Define-se três conceitos fundamentais para que o entendimento fique mais claro da qualidade:

Qualidade de Software

Qualidade de software é definida como: conformidade a requisitos funcionais e de desempenho explicitamente declarados, a padrões de desenvolvimento claramente documentados e a características implícitas que são esperadas de todo software profissionalmente desenvolvido. A qualidade de software é uma combinação complexa de fatores que variam de acordo com diferentes aplicações e clientes que as solicitam.

A garantia de qualidade de software (Software Quality Assurance - SQA) é uma atividade que é aplicada ao longo de todo o processo de engenharia de software. É uma atividade fundamental para qualquer negócio que gere produtos que são usados por outros. A SQA é um padrão sistemático e planejado de ações que são exigidas para garantir a qualidade de software. A implicação para o software é que muitos participantes de uma organização são responsáveis pela garantia de qualidade do mesmo – engenheiros de software, gerentes de projeto, clientes, equipes de vendas e pessoas que participam de um grupo de SQA.

Qualidade de Dados

Qualidade de dados é um conceito complexo porque possui significados diversos para diferentes pessoas. Analisando-se estudos já realizados e propostas para a definição de critérios para a qualidade de dados, pode-se observar diversas definições para expressar este conceito, não havendo ainda um consenso em relação a um conjunto de critérios que pudesse ser sempre utilizado para definir qualidade. Uma razão para isso é o caráter essencialmente subjetivo da qualidade de dados, cuja avaliação pode variar de acordo com a função do observador, do contexto e dos objetivos da avaliação. Além disso, muitas vezes, a qualidade não pode ser expressa quantitativamente, mas precisa ser descrita.

Para analisar como uma organização adota práticas de gestão de dados, há uma série de perguntas a serem elaboradas. Uma delas é se a empresa tem problemas, custos adicionais ou perdas financeiras, ficando exposta a riscos em decorrência da baixa qualidade de seus dados. Outra, por exemplo, é o nível de dependência que a empresa tem de processos automatizados de tomada de decisão. São também considerados indicativos do comprometimento com gerenciamento de dados a atenção que a alta administração dá ao tratamento de dados e a existência de uma estratégia para o assunto.

Para que a função de administração de dados seja efetiva, padrões e políticas a respeito dos dados, sua definição e seu uso devem ser adotados. Esses padrões devem ser rigorosos, abrangentes e flexíveis a mudanças, para poder viabilizar a reutilização, a estabilidade e a efetiva comunicação do significado dos dados. Deve-se usar ferramentas, como dicionário de dados e repositórios para gerenciá-los.

Dados bem definidos, íntegros no seu significado, consistentes, confiáveis, seguros e compartilhados fazem com que cada novo sistema defina apenas os dados que são do seu escopo e divida os demais dados com outros sistemas presentes na organização . E o que é arriscado para as organizações é que a qualidade dos dados tende a piorar e, deste modo, é preciso uma atenção especial, por meio de métodos, técnicas e ferramentas específicas.

O conceito de qualidade de dados indica o quanto as fontes de dados atendem às demandas de informação das áreas de negócio. Isto envolve conhecer a qualidade de dados atual, determinar a qualidade de dados desejada e ajustar a qualidade atual em função da desejada.

Qualidade de Dados em Banco de Dados

A qualidade dos dados de uma base de dados é um requisito fundamental para uma correta interação com o cliente, bem como para tomadas de decisão baseadas em soluções como Data Warehouse, Data Mart, Data Mining etc. A inexistência de dados duplicados numa base de dados, o conhecimento do número exato de clientes, a obtenção de uma visão única de cliente ou a segmentação de clientes, estão intimamente ligados à qualidade dos dados que os representam.

Dois tipos de avaliações que podem ser feitas em um banco de dados são: a avaliação quantitativa, ou objetiva, e a avaliação qualitativa, ou subjetiva. Na avaliação quantitativa são utilizados indicadores objetivos para medir a qualidade da representação da estrutura do banco de dados. Neste caso, a medição da qualidade depende apenas do dado que está sendo medido, e não do ponto de vista do observador. São observados, por exemplo, valores do domínio, presença de valor, entre outros fatores. A avaliação quantitativa da qualidade é normalmente realizada por ferramentas automatizadas (softwares).

A avaliação qualitativa da qualidade depende do ponto de vista do observador e do dado que está sendo medido. Neste tipo de avaliação os indicadores subjetivos são as características da qualidade que foram definidas, objetivando capturar a percepção e a expectativa do usuário sobre a qualidade de dados. Ela pode ser realizada por especialistas ou usuários do banco de dados, ou ainda em conjunto com ferramentas automatizadas, que utilizam os indicadores subjetivos para julgar a qualidade atual do banco de dados e sua aptidão de uso.

Qualidade da Informação

A qualidade da informação pressupõe a qualidade do dado, do sistema de informação e do ambiente computacional.

Um sistema de informação de qualidade pressupõe um sistema que cumpre seus objetivos, é gerenciável, é passível de manutenção e de aprendizado por uma pessoa que não tenha feito parte do grupo original do projeto . À medida que a infraestrutura de informações das empresas amadurece, aumenta a necessidade de qualidade das próprias informações e de sistemas eficientes e eficazes de suporte à decisão, os quais são projetados para apoiar os gestores de negócio no processo de tomada de decisão numa perspectiva de mais longo prazo, no trato da informação.

Qualidade do Modelo de Dados

O modelo de dados é uma parte relativamente pequena do total da especificação do sistema, mas tem um forte impacto na qualidade e vida útil do mesmo. O tempo gasto produzindo-se o melhor projeto possível é recompensado no futuro. Para que ocorra uma melhoria na qualidade é necessário um apontamento claro e formal sobre o que necessita ser aprimorado. Não vale somente falar, é preciso documentar.

Um modelo de dados de qualidade deve ter as seguintes características:

Qualidade de Dados em Data Warehouse

Devido à crescente utilização do Data Warehouse em tomadas de decisão, é fundamental adotar uma estratégia para garantir a qualidade dos dados nesse ambiente. Uma vez que a qualidade dos dados afeta o resultado das análises, é interessante que o grau de qualidade das informações analíticas seja considerado durante o processo de tomada de decisão.

No Data Warehouse, o problema de se medir a qualidade não é fácil, principalmente quando a qualidade dos processos está ligada à qualidade dos resultados obtidos. Um ambiente de Data Warehouse é responsável pela disseminação do conhecimento do negócio, criando assim, inteligência competitiva para a mesma. Com isso, a introdução de medidas de qualidade torna-se imprescindível, transformando assim, a qualidade de dados em uma questão central para o Data Warehouse. A necessidade de qualidade consistente de dados torna-se mais importante à medida que o tamanho e a complexidade das fontes de informações aumentam.

Uma abordagem abrangente de qualidade de dados requer a evolução da qualidade dos valores dos dados, realizando a VV&C (Verificação, Validação e Certificação) e a evolução dos processos que geram e modificam o dado, visando o aumento da qualidade dos dados que eles produzem.

No processo de consistência dos dados em um Data Warehouse alguns aspectos são especialmente importantes: a integridade, a acuracidade e a completude. A integridade indica a segurança dos dados contidos na fonte. A acuracidade indica quanto os dados da fonte representam a realidade. A completude indica quanto de todos os dados necessários para atender a demanda do negócio está presente na fonte.

Um dos principais objetivos de um Data Warehouse é eliminar problemas relativos ao negócio da organização como perda de receita, altos custos de produção, incapacidade de manter seus clientes fiéis, perda de mercado, dentre outros. Para realizar esse desejo, um projeto de Data Warehouse deve estabelecer alguns objetivos de curto e longo prazo. Os de curto prazo são relativos a cada iteração do Data Warehouse e beneficiam diretamente os usuários. Os de longo prazo são alcançados durante o tempo de vida do mesmo e a principal questão nesse sentido é alinhar os objetivos do Data Warehouse às metas estratégicas da empresa. Para tanto, segundo Pinheiro (2002), deve-se responder às seguintes questões: quais são os principais problemas da empresa relativos ao negócio? Os objetivos do Data Warehouse estão endereçados a esses problemas? Como o Data Warehouse pode ajudar a eliminar tais problemas?

Para analisar como uma organização adota práticas de gestão de dados, há uma série de perguntas a serem feitas. Uma delas é se a empresa tem problemas, custos adicionais ou perdas financeiras, ficando exposta a riscos em decorrência da baixa qualidade de seus dados.

Outra é o nível de dependência que a organização tem e terá de processos automatizados de tomada de decisão. Também é um indicativo do comprometimento com gerência de dados a atenção que a alta administração dá ao tratamento de dados e a existência de uma estratégia para o assunto. Se você tem dados de má qualidade e os disponibiliza em um Data Warehouse, o seu resultado final é um suporte à decisão de baixo nível com altos riscos para o seu negócio, afirma Robert Craig, analista do Hurwitz Group.

Muitas vezes, a qualidade de dados da organização pode ser considerada uma vantagem competitiva. Quando isso acontece, é possível identificar rapidamente possíveis oportunidades de negócio ou de marketing a partir de transformação e de análises sobre os dados comercias atuais e históricos.

A crescente utilização do Data Warehouse para apoiar processos de tomada de decisão tem provocado um aumento da preocupação em relação à qualidade dos dados. A probabilidade de tirar vantagens dos recursos de informação é maior quando existe um conhecimento prévio do quão confiáveis eles são.

Processo de Qualidade em Data Warehouse

A implantação de um processo de qualidade em Data Warehouse deve cobrir todas as fases, desde o levantamento dos requisitos, o mapeamento dos campos adquiridos do sistema transacional, o desenvolvimento da fase de extração, transformação e carga (ETC), a criação de um modelo multidimensional corporativo, a disposição das informações através de ferramentas OLAP, até a validação dos dados apresentados.

No processo de qualidade de dados, a freqüência da coleta dos dados deve ser compatível com a volatilidade das fontes. Para isso, é preciso mapear e controlar o momento da distribuição da informação. Outra questão crítica em Data Warehouse advém dos problemas de acuracidade de dados, já citados anteriormente, devido a atualizações de fontes múltiplas, atualizações retroativas e atualizações pró-ativas.

Existem medidas de sucesso que devem ser estabelecidas para acompanhar o projeto de Data Warehouse e seu ciclo de vida. Estes indicadores ajudam os gerentes de projeto a tomar decisões quanto ao direcionamento das manutenções corretivas e das evolutivas, dado que os mercados estão cada vez mais competitivos e a função do Data Warehouse é auxiliar as organizações a acompanhá-los.

O ideal é que as informações sejam armazenadas no menor nível de granularidade (A granularidade determina quais os tipos de consultas podem ser feitas no Data Warehouse. Ela influencia diretamente na velocidade do acesso às informações e no volume de dados armazenados) possível. Uma abordagem possível é a associação direta dos indicadores de qualidade aos dados pela adição de uma chave de auditoria (chave substituta típica de Data Warehouse) na tabela de fatos, correlacionando a mesma à dimensão que contém os indicadores.

Um indicador a ser implantado é o grau de uso do Data Warehouse, verificando o número total de usuários que o acessam, o número de usuários concorrentes, a quantidade e o tipo das consultas e o montante de relatórios gerados. Essas medidas indicam o caminho que o Data Warehouse deve seguir no seu ciclo de vida, indo de encontro às necessidades do usuário e estando sempre atualizado. O estabelecimento e o acompanhamento dessas métricas fazem com que o Data Warehouse seja sempre útil ao usuário, permitindo que ele tome decisões de negócio baseado em dados consistentes, integrados e atuais.

Assim, um outro indicador que se deve estabelecer é relativo aos prazos de atualização e disponibilização ao usuário. Como um ambiente de Data Warehouse está em contínua evolução, retratando sempre um momento da organização – e não perdendo estes momentos, mantendo, assim, sua característica temporal – as solicitações de mudança são constantes e, por conseqüência, suas implementações devem acontecer em prazos factíveis, para que os usuários possam usufruir dessas evoluções em tempo hábil.

No entanto, novos indicadores podem ser definidos a qualquer momento, com a finalidade de avaliar outros tipos de características ou mesmo para aprimorar a avaliação da qualidade de variáveis de fato e dimensões.

Uma metodologia para Data Warehouse se centra fundamentalmente na gestão da qualidade de dados, buscando melhorias prospectivas e retrospectivas e usando essencialmente critérios de depuração. Qualquer metodologia neste sentido deve focar em:

Muitas vezes, a qualidade de dados da organização pode ser considerada uma vantagem competitiva, podendo ser considerada como sendo o núcleo do processo de desenvolvimento organizacional

O primeiro passo para se estabelecer um bom gerenciamento dos dados manipulados pelo Data Warehouse é entender o seu mapeamento com os sistemas legados, tentando desta forma, sanar a confusão informacional que se dá nestes diferentes sistemas, isoladamente, por possuírem distintas e bases heterogêneas. Uma das metodologias para resolver esse problema é a criação de uma área.

Assim, todo projeto de Data Warehouse deve estabelecer alguns compromissos de qualidade para que sua implantação se torne um caso de sucesso, não apenas no uso de metodologias que incrementem qualidade no gerenciamento e na entrega dos dados, mas também, na definição e acompanhamento de indicadores de qualidade durante o ciclo de vida do projeto. Cada uma das fases do desenvolvimento deve estar inserida em um contexto de qualidade, como o processo de ETC, no correto mapeamento dos dados e suas respectivas transformações, na criação de um modelo lógico de dados consistente e integrado e na entrega e distribuição das informações gerenciais.

Dificuldades na Implantação do Data Warehouse

Um dos objetivos do Data Warehouse é melhorar a qualidade dos dados, que é crítica em todas as grandes corporações, em especial, nos seus sistemas legados. De um lado, o Data Warehouse se propõe a fornecer dados limpos, integrados e consistentes, provenientes de fontes de dados heterogêneas. Por outro lado, tem-se o cronograma de implantação, que para grandes corporações, correspondente, em média, a um tempo longo. É quase impossível alcançar este objetivo sem assumir alguns compromissos de implantação. Faz parte desse compromisso um conjunto de procedimentos úteis e muito importantes.

Muitas dificuldades são encontradas na implantação do Data Warehouse, tanto externa, quanto internamente em relação a ele. Mesmo que os procedimentos sejam seguidos sem nenhuma irregularidade, a necessidade de reduzir os custos do projeto sempre está em primeiro plano.

As dificuldades externas do processo são: exigüidade dos prazos, relacionamento com outras equipes e falta de documentação. E as dificuldades internas? Esta não encontrei nada falando em nenhum autor.

A forma como os dados são disponibilizados também pode trazer inconsistências nos relatórios e nas visões do Data Warehouse. Por exemplo, dados demonstrados na vertical e na horizontal. Portanto, certificar que os dados disponibilizados sejam os mesmos que representam os desejos do usuário, é um passo importante. Não obstante, alguns dados podem ser incoerentes, e a regra de formação das métricas disponibilizadas pelo Data Warehouse deve ser validada com a área usuária, evitando assim, inconsistências na disseminação da inteligência do negócio da empresa.

Conclusão

A crescente utilização de Data Warehouse para apoiar processos de tomada de decisão tem provocado um aumento na preocupação em relação à qualidade dos dados. A probabilidade de tirar vantagem dos recursos de informação é maior quando existe um conhecimento prévio do quão confiáveis eles são. A qualidade torna-se uma importante ferramenta na competição pelo espaço em que as organizações direcionam seus trabalhos.


Saiu na DevMedia!

  • Teste unitário: Descubra erros no código antes que ele falhe!:
    O teste unitário é uma metodologia que procura aferir a corretude do código, em sua menor fração. Em linguagens orientadas a objetos, essa menor parte do código pode ser um método de uma classe.
  • DevCasts e PodCasts:
    Já são mais de 400 DevCasts e vários PodCasts sobre Programação: Java, PHP, Javascript, .NET, Python, Delphi, Banco de dados e muito mais. Confira!

Saiba mais sobre Banco de dados ;)

  • Cursos de Banco de Dados:
    Aprenda a modelar, implementar e administrar bancos de dados usando as ferramentas mais solicitadas do mercado. Domine a linguagem SQL e os principais SGBDs: SQL Server, Oracle, MySQL e outros.
  • Guias de Banco de Dados:
    Aqui você encontra o Guia de estudo ideal para aprimorar seus conhecimentos nos principais Banco de Dados do mercado. Escolha o seu e bons estudos!

Referências Bibliográficas

Artigos relacionados