Desvendando os mistérios do Charset � Revista Java Magazine 109

Do que se trata o artigo:

Neste artigo, apresentaremos desde os prim�rdios do c�digo Morse e da tabela ASCII, at� o nascimento do padr�o Unicode, para explicar como funcionam os sistemas de codifica��o e seus principais problemas dentro da plataforma Java.

Em que situa��o o tema � �til:

Quem ainda n�o teve problemas de codifica��o certamente um dia ter�. Com base nisso, este artigo visa auxiliar na redu��o do sofrimento causado por este tipo de problema e ainda diminuir o tempo gasto com solu��es baseadas em tentativa e erro.

Desvendando os mist�rios do Charset:

Este artigo tem como objetivo chamar a aten��o para um tema complicado e que a maior parte dos desenvolvedores acaba dando pouca import�ncia no dia a dia. Para isso vamos apresentar as origens dos sistemas de codifica��o e uma s�rie de dicas para ajudar a resolver problemas e evitar dores de cabe�a no futuro.

Quem nunca passou vergonha na hora de apresentar um software rec�m-implementado e se surpreendeu com caracteres estranhos, e at� misteriosos, tomando o lugar da acentua��o das palavras?

Esse tipo de problema � extremamente comum e costuma acompanhar a maior parte dos desenvolvedores de software ao longo de suas vidas profissionais. Entretanto, tentar resolv�-lo na base da tentativa e erro ou ainda recorrendo a outros tipos de ci�ncias esot�ricas pode n�o dar certo e ainda prolongar o sofrimento.

Na maior parte das vezes � extremamente simples resolver esse tipo de mal entendido entre diferentes sistemas de codifica��o, no entanto, como v�rias partes do software e principalmente de seu ambiente s�o afetadas, pode ser traum�tico encontrar o local exato para efetuar os ajustes.

Neste artigo, vamos a fundo �s ra�zes do problema, apresentando desde os prim�rdios do c�digo Morse e da tabela ASCII, at� o nascimento do padr�o Unicode, para explicar como funcionam os mecanismos de convers�o de caracteres nas profundezas do Java.

Tudo come�ou com o C�digo Morse

Em 1836, Samuel F. B. Morse, Joseph Henry e Alfred Vail desenvolveram um importante meio de comunica��o, baseado na transmiss�o de pulsos el�tricos, conhecido como tel�grafo. Na �poca, o sistema de codifica��o utilizado para transmitir mensagens de maneira r�pida e confi�vel era o c�digo Morse. Este consistia na representa��o das letras do alfabeto e n�meros por meio de pulsos el�tricos longos e curtos, como pode ser visto na Figura 1.

Figura 1. C�digo Morse com seus pulsos longos e curtos.

Em suas primeiras vers�es, o c�digo Morse n�o contava com letras min�sculas, acentuadas ou mesmo sinais de pontua��o, e foi sendo estendido ao longo do tempo conforme se estabeleciam comunica��es entre diferentes idiomas. Muitos anos mais tarde, o mesmo processo de evolu��o ocorrido com o c�digo Morse foi acontecendo com os sistemas de codifica��o dos computadores, que veremos a seguir.

Entendendo os sistemas de codifica��o de caracteres

Um sistema de codifica��o de caracteres, ou character encoding, consiste em uma forma de associar um determinado conjunto de letras, n�meros e s�mbolos, a um tipo de representa��o � n�meros bin�rios, hexadecimais ou mesmo pulsos el�tricos � com o objetivo de facilitar a transmiss�o e o armazenamento dos dados.

Em 1963, a American Standards Association criou uma tabela de codifica��o de caracteres chamada ASCII, com o objetivo de padronizar o sistema de codifica��o utilizado na �poca, quando era comum que cada fabricante criasse seus pr�prios sistemas, o que causava incompatibilidade entre diferentes plataformas.

Essa tabela utilizava um conjunto de 7 bits para representar 128 caracteres, o que era suficiente para exibir todas as palavras e s�mbolos mais utilizados em textos escritos na l�ngua inglesa. Entretanto, para os idiomas latinos, que em geral possuem muitas palavras acentuadas, al�m de outros tipos de pontua��o, o ASCII n�o era suficiente. Por esse motivo, a ISO (International Standards Organization) criou v�rias extens�es (norma 8859) baseadas na tabela ASCII, com 8 bits, para suprir as necessidades de diversos pa�ses e idiomas.

Ao todo, existem cerca de 16 varia��es da codifica��o ISO-8859, onde uma das mais utilizadas � a ISO-8859-1, ou Latin-1, adotada em boa parte da Europa, �frica e, principalmente nas Am�ricas, por dar suporte completo aos idiomas portugu�s, espanhol, alem�o, italiano e ingl�s.

O nascimento do padr�o Unicode

O Unicode foi criado no fim da d�cada de 80 por Joe Becker da Xerox e Lee Collins da Apple com o objetivo de ser um padr�o de codifica��o de caracteres mundialmente aceito e que fosse capaz de resolver o problema de incompatibilidade entre os diferentes sistemas de codifica��o de caracteres utilizados na �poca.

Somente o idioma japon�s possui tr�s sistemas de escrita: Hiragana, Katakana e Kanji. Este �ltimo � formado por cerca de 40 mil kanjis, ou ideogramas, que representam ideias, conceitos e que podem ter mais de um significado. Conjuntos de caracteres complexos como este n�o poderiam ser representados pelos apenas 8 bits dos sistemas de codifica��o mais tradicionais, como os da norma ISO-8859.

...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por Rodrigo Em 2012

Black November

Desconto exclusivo para as primeiras 200 matrículas!

Pagamento anual

12x no cartão

De: R$ 69,00

Por: R$ 54,90

Total: R$ 658,80

Garanta o desconto

Formação FullStack Completa
Carreira Front-end I e II, Algoritmo e Javascript, Back-end e Mobile
+10.000 exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Estude pelo Aplicativo (Android e iOS)
Suporte online
12 meses de acesso

Pagamento recorrente

Cobrado mensalmente no cartão

De: R$ 79,00

Por: R$ 54,90 /mês

Total: R$ 658,80

Garanta o desconto

Formação FullStack Completa
Carreira Front-end I e II, Algoritmo e Javascript, Back-end e Mobile
+10.000 exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Estude pelo Aplicativo (Android e iOS)
Suporte online
Fidelidade de 12 meses
Não compromete o limite do seu cartão

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Desvendando os mist�rios do Charset � Revista Java Magazine 109

Neste artigo, apresentaremos desde os prim�rdios do c�digo Morse e da tabela ASCII, at� o nascimento do padr�o Unicode, para explicar como funcionam os sistemas de codifica��o e seus principais problemas dentro da plataforma Java.

Confira outros conte�dos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

Quais s�o os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem hor�rio para as aulas?

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Preciso de um computador espec�fico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais s�o os planos de assinatura dispon�veis?

Adquirindo o plano, terei acesso a todo o conte�do?

A plataforma tem planos vital�cios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

A renova��o � autom�tica?

Como excluir meus dados da plataforma?