artigo sql magazine 47 - Normaliza��o de Dados

Esse artigo faz parte da revista SQL Magazine ediç�o 47. Clique aqui para ler todos os artigos desta ediç�o

Clique aqui para ler esse�artigo em PDF.

�

Atualmente, � comum verificarmos organizaç�es com bases de dados da ordem dos terabytes. Al�m disso, � sabido que a necessidade de informaç�es por parte dos gestores � enorme e vem crescendo diariamente. Isto porque a tomada de decis�es, com base em informaç�es, torna-se muito mais precisa. E, para que estas informaç�es sejam geradas com qualidade, � necess�rio um bom projeto de banco de dados.

Sabemos que o objetivo de um projeto de banco de dados � obter um conjunto de esquemas de tabelas que nos permita armazenar dados sem redund�ncia e que as informaç�es possam ser geradas facilmente. Para verificar se um projeto de banco de dados atende a estes pressupostos, podemos aplicar algumas regras aos projetos em quest�o. A estas regras, damos o nome de Formas Normais.

Originalmente, Edgar F. Codd definiu tr�s destas formas normais (Primeira Forma Normal, Segunda Forma Normal e Terceira Forma Normal), mas hoje existem algumas outras (Forma Normal de Boyce-Codd, Quarta Forma Normal e Quinta Forma Normal) como veremos nos t�picos a seguir. Muitos autores dizem que aplicando as tr�s formas normais definidas por Codd, o projeto do banco de dados j� estar� livre de redund�ncias e inconsist�ncias. Entretanto, outros autores definem como de extrema import�ncia a aplicaç�o das outras formas normais. Neste artigo, n�o entraremos nesta discuss�o e apresentaremos todas as formas normais existentes atualmente. Dessa forma, o leitor ter� condiç�es de verificar a import�ncia ou n�o da aplicaç�o de todas elas.

Para efetuar a normalizaç�o, aplicam-se na ordem as seguintes formas normais: primeira forma normal, segunda forma normal, terceira forma normal. Neste ponto, podemos dar continuidade � normalizaç�o seguindo pelas formas normais de Boyce-Codd, quarta forma normal e por �ltimo a Quinta Forma Normal ou, iniciar diretamente da forma normal Boyce-Codd. Estas formas normais devem ser aplicadas ao modelo de dados definido pelo profissional. Ao final da aplicaç�o das formas normais, podemos dizer que o projeto de banco de dados est� livre de redund�ncias e conseq�entemente de inconsist�ncia.

Neste momento, podemos definir normalizaç�o como sendo uma s�rie de passos que se segue no projeto de um banco de dados que permite um armazenamento consistente e um eficiente acesso aos dados em um banco de dados relacional. Esses passos evitam a redund�ncia de dados e as chances dos dados se tornarem inconsistentes. Devemos fazer uso destes passos sempre que estivermos projetando nossas soluç�es de banco de dados, salvo casos espec�ficos onde trabalhamos com o conceito de desnormalizaç�o. Como vimos, o uso da normalizaç�o traz grandes benef�cios (consist�ncia, evita redund�ncia, integridade) e sua n�o utilizaç�o poder� trazer exatamente os problemas resolvidos com normalizaç�o, ou seja: problemas de inconsist�ncia, redund�ncia e integridade.

Este artigo ser� dividido da seguinte forma: inicialmente, ser�o abordados conceitos importantes envolvidos no contexto. Posteriormente, ser�o apresentadas as formas normais e um exemplo de aplicaç�o. Logo ap�s, abordaremos o t�pico sobre desnormalizaç�o e por �ltimo, faremos as consideraç�es finais relacionadas ao artigo.

�

Conceitos importantes

Neste t�pico iremos abordar alguns conceitos necess�rios para melhor compreens�o de todo o artigo. Fiquem � vontade em retornar a este t�pico sempre que alguma d�vida surgir, ou caso prefiram, podem saltar a leitura deste t�pico e recorrer a ele no decorrer dos pr�ximos t�picos. Sempre que surgir um conceito que tiver sido definido neste t�pico, faremos refer�ncia a ele para que retomem a leitura a fim de revisar ou simplesmente para efetuar a leitura do conceito necess�rio.

�

Conceito 1: Depend�ncia Funcional

Uma depend�ncia funcional � um relacionamento entre dois ou mais atributos de forma que o valor de um atributo identifique o valor para cada um dos outros atributos, ou seja, um atributo est� relacionado a outro. Por exemplo:

�

A � B

�

Nesse exemplo, o atributo B � dependente (funcionalmente) do atributo A. Em outras palavras, para �descobrirmos o valor de B, precisamos saber o valor de A� (observe que a rec�proca N�O � verdadeira). Veja mais um exemplo:

�

��C�digo do cliente � Nome do cliente

�

Nesse exemplo, para descobrirmos o nome do cliente (dentro de um conjunto de clientes), primeiramente precisamos saber qual � o c�digo dele. Assim, o campo/atributo nome � dependente do campo/atributo c�digo. Observe que a rec�proca N�O � verdadeira! Voc� poderia pensar: �Ora, eu posso conhecer o nome do cliente, e n�o o seu c�digo. Nem sempre eu vou precisar saber o c�digo do cliente para obter o nome dele�. Esse pensamento � incorreto, pois voc� pode ter clientes com o mesmo nome.

Outro detalhe importante � que em uma tabela podemos ter mais de uma depend�ncia funcional. Por exemplo:

�

C�digo do cliente � Nome do cliente

C�digo do cliente � UF do cliente

�

Essa mesma afirmaç�o pode ser descrita da seguinte forma:

�

C�digo do Cliente �� [Nome do Cliente, UF do cliente]

�

Vamos ver agora um exemplo mais completo. Vamos supor uma tabela contendo c�digo do cliente, nome do cliente, tipo de logradouro, logradouro, n�mero, complemento, bairro, cidade e UF. Nesta tabela, para cada c�digo de cliente teremos um s� valor para nome do cliente, tipo de logradouro, logradouro, n�mero, complemento, bairro, cidade e UF. Por isto, dizemos que os atributos nome do cliente, tipo de logradouro, logradouro, n�mero, complemento, bairro, cidade e UF est�o funcionalmente dependentes do c�digo do cliente. Perceba que neste caro estamos considerando que ser� armazenado apenas o endereço residencial da pessoa (caso contr�rio, a depend�ncia funcional deixaria de existir).

Esta depend�ncia funcional pode ser escrita da seguinte forma:

��

C�digo � nome, tipo_logradouro, logradouro, nro, compl, bairro, cidade, UF

�

Com isso, podemos perceber que o valor de um atributo determina o valor de outro atributo. Provavelmente voc� j� tenha se deparado com a forma mais comum de depend�ncia funcional, que � gerada pela chave prim�ria. Obviamente o valor da chave prim�ria determina o valor dos outros atributos do mesmo registro.

�

Conceito 2: Depend�ncia Funcional Parcial

Uma depend�ncia funcional parcial ocorre quando os atributos n�o chave n�o dependam funcionalmente de toda a chave prim�ria quando esta for composta. Assim, nas tabelas onde a chave prim�ria for composta, todos os atributos devem depender de toda a chave prim�ria. Caso a depend�ncia seja de parte da chave, verificamos a exist�ncia de depend�ncia funcional parcial.

Por exemplo:

�

AB � C, D

�

Considere que o atributo C dependa funcionalmente de A, mas n�o dependa de B. J� temos um exemplo de depend�ncia funcional parcial.

Vamos ver agora um exemplo mais completo. Suponha uma tabela notas (matricula_aluno, CodDisciplina, Periodo, NomeDisciplina, Nota) (ver Tabela 1). Suponha que a chave prim�ria desta tabela seja matricula_aluno, Periodo e CodDisciplina. Nesta tabela, verificamos que o atributo NomeDisciplina depende apenas do CodDisciplina e n�o depende da matr�cula do aluno junto com seu per�odo. Assim, existe uma depend�ncia funcional parcial. Isso pode trazer problemas para o modelo como redund�ncia de informaç�es. Imagine que o aluno de matricula 123 tenha perdido a disciplina Engenharia de Requisitos no primeiro per�odo e tenha que repeti-la no segundo. Perceba na Tabela 1 que neste caso ter�amos o valor do campo NomeDisciplina replicado. Esta certamente n�o � uma boa pr�tica de projeto. A soluç�o neste caso seria criarmos outra tabela contendo apenas os dados da disciplina (veremos esta soluç�o detalhadamente mais adiante quando falaremos sobre as formas normais).

�

Matricula_Aluno	Periodo	CodDisciplina	NomeDisciplina	Nota
123	1	8	Engenharia de Requisitos	4,0
123	1	9	Qualidade de Software	10,0
123	1	5	Engenharia de Software	7,0
123	2	8	Engenharia de Requisitos	9,0

Tabela 1. Tabela contendo depend�ncia funcional parcial.

�

Conceito 3: Depend�ncia Funcional Transitiva

Na definiç�o dos campos de uma entidade podem ocorrer casos em que um campo n�o seja dependente diretamente da chave prim�ria ou de parte dela, mas sim dependente de outro campo da tabela, campo este que n�o a Chave Prim�ria. Quando isto ocorre, dizemos que a tabela possui depend�ncia funcional transitiva. � importante deixar claro a diferença entre depend�ncia funcional parcial e a transitiva. Na parcial, pelo menos um atributo da tabela depende de parte da chave prim�ria (e n�o dela toda); na transitiva, pelo menos um atributo da tabela depende de outro atributo que n�o seja chave prim�ria.

Para definir melhor o conceito de depend�ncia funcional transitiva, trabalharemos por meio de um exemplo. Vamos supor a exist�ncia de uma tabela funcion�rio contendo a matr�cula do funcion�rio (chave prim�ria), nome do funcion�rio, c�digo do cargo, nome do cargo e sal�rio do cargo, conforme Tabela 2.

�

Matricula	NomeFuncionario	CodCargo	NomeCargo	SalarioCargo
1	Ary	1	Professor	R$ 7.500,00
2	Tatiana	2	Advogado	R$ 6.900,00
3	Ana	3	Secret�ria	R$ 1.550,00
4	Luis	4	Analista de Sistemas	R$ 8.000,00
5	Rodrigo	1	Professor	R$ 7.500,00

Tabela 2. Tabela Funcion�rio

�

Perceba que a matr�cula do funcion�rio determina apenas os atributos nome do funcion�rio e c�digo do cargo. Entretanto, o c�digo do cargo (que n�o � chave prim�ria) determina o nome do cargo e o sal�rio do cargo e estes dois �ltimos atributos n�o dependem diretamente do atributo matr�cula.

�

Matricula � NomeFuncionario, CodCargo

CodCargo � NomeCargo, SalarioCargo

�

Assim, temos uma depend�ncia funcional transitiva. Perceba no exemplo da Tabela 2 que quando este tipo de depend�ncia est� presente, temos informaç�es redundantes na tabela (o funcion�rio Rodrigo tamb�m � professor e possui os campos NomeCargo e SalarioCargo repetidos em relaç�o ao funcion�rio Ary) e sabemos que este tipo de situaç�o � uma das causas para a perda de integridade em projetos de banco de dados. Analisando esta situaç�o, fica bastante claro que sabendo o valor do atributo CodCargo, saber�amos automaticamente o valor dos atributos NomeCargo, SalarioCargo e isso poderia estar armazenado em outra tabela para evitar problemas de redund�ncia.

�

Conceito 4: Atributos Multivalorados

Atributos multivalorados s�o atributos que podem conter mais de um valor para um mesmo registro.

Na Tabela 3 apresentamos uma tabela pessoa (Codigo, Nome, Telefone). Perceba o atributo telefone para os dois primeiros registros apresentados. Existe mais de um telefone para cada pessoa. Desta forma, o atributo Telefone � multivalorado.

�

Codigo

Nome

Telefone

Ary

(34) 3821-0000

(34) 9979-0000

(34) 9964-0000

[...] continue lendo...

artigo sql magazine 47 - Normaliza��o de Dados

Muitos autores dizem que aplicando as três formas normais definidas por Codd, o projeto do BD já estará livre de redundâncias e inconsistências. Aqui não entraremos nesta discussão e apresentaremos todas as formas normais existentes atualmente.

Conceitos importantes

Artigos relacionados