Big Data: Conhecendo o Apache Pig

Por que eu devo ler este artigo:Este artigo abordar� a ferramenta Apache Pig, uma plataforma de alto n�vel criada em cima do Apache Hadoop que visa facilitar aos desenvolvedores a cria��o de aplica��es e sistemas utilizando a tecnologia MapReduce para o processamento de grandes volumes de dados.

Esse tema � �til para profissionais interessados em desenvolver programas nos quais o uso de consultas e processamentos com MapReduce seja constante, buscando de alguma forma minimizar a dificuldade da sua utiliza��o sem sacrificar a performance no processo.

O tema tamb�m � interessante para desenvolvedores que buscam conhecer um pouco mais do poder que as novas ferramentas de Big Data da Apache podem trazer para suas aplica��es.

Podemos dizer que, nos �ltimos anos, o estudo e entendimento de toda a tem�tica que envolve o campo de Big Data vem sendo uma das �reas com mais oportunidades, tanto acad�micas como profissionais, no mercado.

O surgimento de tecnologias para o processamento de dados em larga escala revolucionou a maneira que tratamos nossas informa��es e trouxe, a todas as empresas, um desafio (e oportunidade) extra para suas �reas de TI.

Dentre essas tecnologias, podemos destacar o famoso projeto da Apache chamado Apache Hadoop. O Hadoop ganhou bastante popularidade entre os desenvolvedores, pois permite a constru��o de plataformas extremamente perform�ticas e escal�veis, ideais para o processamento de grandes quantias de dados, sem trazer consigo o custo de adquirir �superm�quinas�.

Juntamente com esse projeto, a funda��o Apache aproveitou o poder de processamento da arquitetura introduzida pelo Hadoop e criou, com base em suas bibliotecas, diversos outros projetos para auxiliar e introduzir novas funcionalidades aos desenvolvedores. Entre esses, iremos abordar, nesse artigo, o bastante interessante Apache Pig.

O Apache Pig, conforme dissemos, � um projeto da Apache que visa facilitar aos desenvolvedores a manipula��o de dados e a realiza��o de consultas em um ambiente de Big Data criado dentro do Hadoop.

Atrav�s da introdu��o de uma linguagem pr�pria, denominada Pig Latin, o Pig remove as barreiras que a linguagem complicada do MapReduce possui com uma sintaxe simples e de f�cil utiliza��o, aumentando, consequentemente, a produtividade dos projetos em que � empregado.

Tamanha � essa vantagem que, hoje em dia, podemos citar diversos gigantes da computa��o que incluem o Apache Pig em sua arquitetura. Apenas citando alguns exemplos, o LinkedIn faz uso do Apache Pig para a funcionalidade �Pessoas que talvez voc� conhe�a�, o AOL utiliza para realizar suas an�lises de dados e o Yahoo! o adota para auxiliar no processo de busca de seus sites.

Al�m dessas, o Apache Pig � utilizado em diversos outros sistemas (veja a se��o Links) e se mostra como uma das tecnologias mais empregadas no campo de an�lise de dados.

Com tantas vantagens, introduziremos nesse artigo alguns dos caminhos que voc�, desenvolvedor, pode tomar para trazer esses benef�cios � sua aplica��o, utilizando a linguagem Java e introduzindo a funcionalidade do MapReduce ao seu projeto.

Ao final desse estudo, pretendemos, tamb�m, mostrar um caso real onde a tecnologia do Apache Pig � empregada para o processamento e an�lise de dados.

Introdu��o sobre o Hadoop e o MapReduce

Antes de come�armos a entender o funcionamento do Apache Pig, precisamos conhecer um pouco mais sobre a plataforma do Apache Hadoop, na qual ele foi constru�do. Criado em 2005, o Hadoop foi um dos grandes pioneiros no processamento de grandes volumes de dados, trazendo diversas inova��es para o campo de Big Data.

Essas solu��es, em sua grande maioria, se baseiam no conceito de MapReduce, um modelo de programa��o implementado pelo Apache Hadoop que nos permite que os dados e informa��es sejam manipulados em paralelo, com grande efici�ncia em ambientes distribu�dos e ao trabalhar com grandes quantidades de dados.

Por sua vez, essa efici�ncia � poss�vel gra�as ao comportamento do processamento dentro do Hadoop, que divide as tarefas de MapReduce em tr�s fases principais: Map, onde o arquivo a ser processado � dividido em pares de chave e valor de acordo com o seu conte�do; Group, onde os conjuntos de tuplas (pares de dados) s�o agrupados de acordo com o valor de suas chaves; e a fase final Reduce, que executar� uma tarefa de redu��o para cada agrupamento gerado na fase anterior, transformando-os em um �nico resultado final.

Por fim, o Apache Hadoop tamb�m traz a implementa��o do HDFS, um sistema de arquivos distribu�do que permite a distribui��o de dados entre diversas m�quinas tradicionais, ou seja, n�o traz a necessidade de m�quinas caras para a constru��o de clusters de processamento e armazenagem de dados.

Motiva��o para cria��o do Apache Pig

Em contrapartida a esses benef�cios, no entanto, alguns pontos da implementa��o de sistemas utilizando MapReduce se tornaram extremamente complicados e trouxeram algumas preocupa��es aos desenvolvedores e, principalmente, �s empresas que decidiram adotar essa tecnologia.

O primeiro desses pontos � a alta complexidade da elabora��o de uma tarefa de MapReduce que funcione bem em um ambiente distribu�do. Como demonstramos anteriormente, as tr�s fases que comp�em o processamento de uma tarefa de MapReduce exigem um cuidado especial ao dividir e formatar o documento de origem, bem como as tarefas de Reduce, que necessitam ser previamente planejadas. Uma tarefa MapReduce m� otimizada pode, simplesmente, neutralizar todas as vantagens trazidas pelo Hadoop.

O segu ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Por Brunno Em 2014

Black November

Desconto exclusivo para as primeiras 200 matrículas!

Pagamento anual

12x no cartão

De: R$ 69,00

Por: R$ 59,00

Total: R$ 708,00

Garanta o desconto

Formação FullStack Completa
Carreira Front-end I e II, Algoritmo e Javascript, Back-end e Mobile
+10.000 exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Estude pelo Aplicativo (Android e iOS)
Suporte online
12 meses de acesso

Pagamento recorrente

Cobrado mensalmente no cartão

De: R$ 79,00

Por: R$ 64,00 /mês

Total: R$ 768,00

Garanta o desconto

Formação FullStack Completa
Carreira Front-end I e II, Algoritmo e Javascript, Back-end e Mobile
+10.000 exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Estude pelo Aplicativo (Android e iOS)
Suporte online
Fidelidade de 12 meses
Não compromete o limite do seu cartão

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso