SQL Server: Trabalhando com codifica��o de texto e collations

Fique por dentro

Este artigo apresenta uma vis�o detalhada sobre o que � �collation� no SQL Server e como o mesmo interfere na representaç�o de textos. Ser�o apresentados os conceitos de codificaç�o de texto e internacionalizaç�o, que s�o a base para o entendimento do assunto, incluindo o padr�o Unicode e as definiç�es, regras e t�cnicas. Collations s�o implicitamente usados a todo momento. Toda vez que � necess�rio transferir texto entre o SQL Server e uma aplicaç�o, � necess�rio tratar diversas quest�es relacionadas � representaç�o e processamento do mesmo. Desenvolvedores precisam frequentemente estar preparados para lidar com eventuais perdas de informaç�es que as convers�es de texto podem ocasionar, e o SQL Server fornece um amplo suporte, atrav�s dos collations, para o correto transporte e armazenamento do dado. Todos os exemplos e demonstraç�es usados s�o compat�veis com a vers�o 2005 do SQL Server ou posterior.

O texto que se observa na tela do computador � composto de v�rias partes menores chamadas caractere, sendo essa a menor unidade de um texto. Textos tamb�m s�o chamados de �strings�. Em uma traduç�o r�pida, �string� seria algo como �corda�, pois essa � a ideia de um texto: uma sequ�ncia de caracteres ligados por uma esp�cie de corda invis�vel.

O caractere que � visto na tela do computador � apenas um conjunto de pontos sendo desenhados pelo monitor, coordenado pelos dispositivos de v�deo e, � claro, um software. O software orienta o dispositivo baseado no caractere que precisa exibir. O mesmo vale para outros dispositivos, como impressoras.

Computadores, devido � natureza dos componentes que os constituem, s�o capazes de processar e armazenar apenas n�meros. Isso significa que cada caractere � armazenado na mem�ria ou no disco como um n�mero, especificamente como um ou mais bytes, assim como qualquer outro dado no computador, como v�deos, imagens, etc. Um texto � composto por v�rios caracteres, o que significa dizer que um texto � composto por uma sequ�ncia de bytes.

O que � visto na tela do computador, ou na sa�da de uma impressora, s�o os glifos. Os glifos est�o definidos em uma coleç�o de glifos chamada fonte, sendo que cada fonte permite que o caractere seja exibido em estilos diferentes. Baseado no byte (um n�mero) que representa um caractere, o computador encontra o glifo associado e orienta o dispositivo sobre como desenh�-lo. Assim, armazenar, ler e transferir textos requer somente a manipulaç�o dos bytes que os representam, e a exibiç�o dos mesmos fica por conta das fontes instaladas nos computadores onde o texto est� sendo manipulado.

A representaç�o de textos começa neste ponto, onde a primeira d�vida que surge �: qual � o caractere que um determinado n�mero representa? Ent�o, na representaç�o de textos, a primeira coisa que se precisa definir � um mapeamento entre um n�mero e um caractere, como uma letra min�scula ou um sinal de pontuaç�o. Para compreender collations, � necess�rio entender como os caracteres s�o representados e o que � ASCII, CODE PAGES e UNICODE. A melhor maneira de se compreender esses termos � voltando no tempo e observando como tudo começou.

Nos prim�rdios da computaç�o, cada fabricante de software ou computador determinava seu pr�prio mapeamento. Quando os computadores começaram a se comunicar, isso se tornou um grande problema. Por exemplo, suponha que o software A usasse os n�meros 1, 2, 3, 4 e 5 para representar os caracteres A, E, I, O e U, respectivamente, e que o software B usasse 5, 4, 2, 1 e 3 para A, E, I, O e U, respectivamente. Se o software A quisesse mandar a mensagem �OI� para o software B, ent�o ele mandaria a sequ�ncia de n�meros 4 (�O�) e 3 (�I�). O software B, ao receber a sequ�ncia �4 3�, iria exibir a mensagem �EU�, pois, para B, 4 � �E� e 3 � �U�. Era necess�rio criar um padr�o que todos os fabricantes de software e hardware pudessem seguir, e assim garantir que os textos fossem exibidos corretamente.

Por volta de 1960, Bob Bemer, funcion�rio da IBM na �poca, percebeu que havia a necessidade de se estabelecer um padr�o para troca de informaç�es entre computadores. Ent�o, ele prop�s isso � American Standards Association (ASA, que futuramente se tornaria a American National Standards Institute, a ANSI). A partir de um comit� criado pela ASA, nasceu o American Standard Code for Information Interchange, ou o famoso ASCII, que � usado at� hoje.

O ASCII mapeou 128 caracteres em uma tabela conhecida como tabela ASCII e, para cada caractere, determinou um n�mero que o representava, onde o primeiro n�mero era 0 e o �ltimo era 127. Por exemplo, a letra �A� (a mai�sculo) � representada pelo n�mero 65, enquanto que o espaço � representado pelo n�mero 32. H� outros caracteres de controle, que faziam mais sentido para �poca devido aos equipamentos em que eram usados (o ASCII n�o foi criado somente para computadores). Dessa forma, os fabricantes podiam implementar seus softwares baseados nesse padr�o, e a troca de texto entre softwares que seguissem o padr�o ASCII funcionaria corretamente.

No exemplo anterior, se o software A mandasse a mensagem �OI� para o software B, ele iria mandar a sequ�ncia de n�meros 79 (equivalente a �O�) seguido do n�mero 73 (o �I�). Ao receber a mensagem, o software B precisava encontrar na tabela ASCII qual era o caractere associado aos n�meros 79 e 73. Como ambos os softwares usavam a mesma tabela (o mesmo padr�o), os caracteres eram exibidos corretamente.

Code Pages e Character Sets

O padr�o ASCII mapeou somente 128 caracteres, que para o Ingl�s era suficiente. Esses 128 n�meros cabiam em apenas 7 bits (n�meros de 0 a 127), por�m os computadores da �poca j� eram capazes de trabalhar com oito bits (um byte), o que permitia 256 n�meros serem utilizados, isto �, o dobro de 128. Assim, os 128 n�meros restantes, que compreendiam a faixa de n�meros entre 128 e 255, ficaram �livres�. Isso significa que cada caractere gastava 1 byte (por isso esse tipo de representaç�o � chamado de Single Byte Character Set, ou SBCS)."

[...] continue lendo...

Codifica��o de texto e collations no SQL Server

Este artigo apresenta uma visão detalhada sobre o que é �collation� no SQL Server e como o mesmo interfere na representação de textos.

Artigos relacionados