Big Data Tutorial: Como trabalhar com Big Data na pr�tica

Fique por dentro

Com a popularizaç�o das m�dias sociais e desenvolvimento das tecnologias, o n�mero de dados gerados est� sendo muito alto e a grande maioria desses s�o dados semiestruturados ou n�o estruturados. Diante disso vem se falando muito em Big Data.

Seu conceito pode ser definido como ferramentas e pr�ticas que gerenciam e analisam grandes volumes de dados de diferentes fontes, em velocidade consider�vel, buscando agregar as organizaç�es, valor de neg�cios e maior confiabilidade em relaç�o �s decis�es a serem tomadas. Este artigo visa esclarecer a concepç�o e conceito de Big Data, sua utilizaç�o nas organizaç�es, apresentar as tecnologias envolvidas, para que desta maneira as empresas possam utilizar desses recursos, contando com os benef�cios de que disp�e para um maior gerenciamento e apoio na tomada de decis�es.

Com a popularizaç�o da internet e o surgimento de m�dias sociais, o n�mero de dados digitais gerados aumentou de forma significativa. Esses dados podem ser classificados em estruturados e n�o estruturados, com base no seu gerenciamento e armazenamento.

Os dados estruturados s�o organizados em linhas e colunas, geralmente s�o encontrados em banco de dados relacionais, s�o eficientes quanto � recuperaç�o e processamento. J� os dados n�o estruturados referem-se a dados que n�o podem ser organizados em linhas e colunas, como v�deos, coment�rios em redes sociais e e-mails, entre outros. Geralmente s�o dados de dif�cil acesso e recuperaç�o e muitas vezes n�o disp�em de componentes necess�rios para identificaç�o de tipo de processamento e interpretaç�o, tornando o seu uso um desafio principalmente em aplicativos empresariais.

Grande parte dos dados digitais gerados atualmente, principalmente atrav�s de m�dias sociais, os quais v�m despertando o interesse das organizaç�es para serem usados como estrat�gias de neg�cio, s�o do tipo n�o estruturados. Esse tipo de dados requer dispositivos de armazenamento e processamento que suportem seu formato e garantam melhor efici�ncia em suas an�lises. Diante desta necessidade crescente de armazenar, manipular e analisar de forma r�pida e inteligente, grandes volumes de dados n�o estruturados foi criado o conceito de Big Data.

Saiba mais: Big Data com Java

Na d�cada de 1940 j� se falava em "explos�o de dados" e "grandes volumes de dados", por�m, foi na d�cada de 1990 que na divulgaç�o de um artigo, a IEEE mencionou o termo �Big Data" pela primeira vez. Em 2001, o termo passou a ser definido pelos 3Vs, de: Volume, Velocidade e variedade. O conceito de Big Data pode ser definido como ferramentas e pr�ticas que gerenciam e analisam grandes volumes de dados, de diferentes fontes, em velocidade consider�vel, buscando agregar �s organizaç�es valor de neg�cios e maior confiabilidade em relaç�o �s decis�es a serem tomadas.

Para as organizaç�es aderirem com sucesso a esse novo conceito de an�lise e gerenciamento de grandes volumes de dados, � recomendado o cumprimento de algumas fases, s�o elas: 1) aquisiç�o e gravaç�o; 2) limpeza, formataç�o e validaç�o; 3) integraç�o, agregaç�o e representaç�o; 4) an�lise e modelagem; e 5) interpretaç�o dos dados. O cumprimento das fases acima garante maior confiabilidade quanto � utilizaç�o do conceito Big Data.

O conceito de Big Data disp�e de in�meras vantagens para as organizaç�es, mas a principal vantagem � a identificaç�o das necessidades dos clientes, sendo poss�vel desenvolver estrat�gias de mercado e apoio a tomada de decis�es mais precisas. Contudo, surgem tamb�m alguns desafios, como trabalhar com a segurança e confiabilidade dos dados.

Para auxiliar as organizaç�es nos processos relacionados ao Big Data existem ferramentas anal�ticas como o Hadoop e MapReduce, tamb�m banco de dados NoSQL, que est�o preparados para armazenar, gerenciar e analisar grandes volumes de dados de diferentes formatos.

O objetivo deste artigo � apresentar o conceito de Big Data de forma a facilitar o seu entendimento e utilizaç�o nas organizaç�es, bem como: a) descrever as vantagens e desafio sem sua utilizaç�o, b) identificar a aplicaç�o em ambientes corporativos; e c) enumerar as principais tecnologias que o sustentam.

Big Data

O n�mero de dados gerados por meios eletr�nicos tem aumentado significativamente com o desenvolvimento da tecnologia. Atualmente s�o gerados mais dados do que a civilizaç�o gerou desde o seu in�cio at� o ano de 2003. Com todo este volume de dados surgem possibilidades de an�lise e gerenciamento, de maneira a gerar informaç�es �teis na tomada de decis�o das empresas. Esta nova maneira de armazenar, gerenciar e analisar grandes volumes de dados de diversas fontes, a uma velocidade consider�vel denomina-se Big Data.

Contudo, a maioria das empresas ainda n�o tem uma vis�o clara do conceito Big Data, do seu potencial e de como alavancar esta potencialidade. Bem como, de que a ideia de que Big Data s� faz sentido se o valor da an�lise dos dados compensar o custo de sua coleta, armazenamento e processamento e as quest�es legais envolvidas.

Dados podem ser caracterizados como uma descriç�o prim�ria de objetos, eventos, atividades e transaç�es que s�o gravados, classificados e armazenados, mas n�o chegam a ser organizados de forma a transmitir algum significado espec�fico. Quando esse conjunto de registros sobre um determinado evento, fato, n�mero, texto ou qualquer m�dia que possa ser processada pelo computador, � agrupada, caracterizado e padronizado, transforma-se em informaç�o.

Antes de serem transformados em informaç�o, os dados podem ser divididos em dois grupos, segundo o armazenamento e gerenciamento. No primeiro grupo encontram-se os dados estruturados e no segundo os dados n�o estruturados. Os dados estruturados s�o organizados em linhas e colunas em um formato definido de forma r�gida, de modo que os aplicativos possam recuper�-los e process�-los com efici�ncia. J� os dados n�o estruturados s�o os que n�o podem, ou s�o dif�ceis de serem armazenados em linhas e colunas. Geralmente s�o de dif�cil acesso e recuperaç�o e requerem maior espaço e velocidade para armazenamento e gerenciamento. S�o muitas vezes dados que n�o disp�em de componentes necess�rios para identificaç�o de tipo de processamento e interpretaç�o, tornando o seu uso um desafio, principalmente em aplicativos empresariais.

O formato de dados n�o estruturados corresponde a 80% dos dados corporativos, podendo ser encontrados na forma de e-mails, coment�rios em redes sociais, v�deos, entre outros.

Conceitos de Big Data

Em meio � inovaç�o tecnol�gica, as organizaç�es encontram-se diante de uma possibilidade de analisar um volume muito grande de dados, que cresce de forma significativa. Estes dados v�m de v�rias fontes como, por exemplo, e-mails, v�deos, web sites, tu�tes, coment�rios em Facebook, sensores, c�meras e smartphones, entre outros.

O Facebook divulgou ao blog TechCrunchque em 2012, que processa 2,5 bilh�es de conte�do e mais de quinhentos terabytes de dados por dia. S�o muitos dados se comparados h� alguns anos. Em 2000 25% dos dados estavam em formato digital e em 2007 j� eram 94%, ou seja, um crescimento de 69% em sete anos.

Apesar do crescimento de dados digitais ter aumentado significativamente, a maioria ainda n�o � tratada e analisada de forma a influenciar na tomada de decis�es das empresas. Diante disso, tem-se ouvido falar muito a respeito de Big Data, que por sua vez tem chamado atenç�o, pois se trata de um conceito n�o com apenas uma definiç�o exata, mas com v�rias definiç�es se analisado sobre diversas �ticas, como por exemplo, neg�cios e tecnologia.

Big Data s�o tecnologias e pr�ticas emergentes que possibilitam a seleç�o, processamento, armazenamento e geraç�o de insights de grandes volumes de dados estruturados e n�o estruturados de maneira r�pida, efetiva e a um custo acess�vel. Big Data pode ser considerado como um conjunto de dados que cresce exponencialmente e necessita de habilidades al�m das quais as ferramentas t�picas de gerenciamento e processamento de informaç�es disp�em.

Taurion descreve ainda que se trata de "Um conjunto de tecnologias, processos e pr�ticas que permitem �s empresas analisarem dados a que antes n�o tinham acesso e tomar decis�es ou mesmo gerenciar atividades de forma muito mais eficiente�. Segundo o autor citado acima "n�o � teoria ou futurologia, � algo que se encontra agora�.

Big Data pode ser definido tamb�m, como um grande data warehouse ou um BI em cima de um data set de terabytes de dados ou tamb�m como um volume de dados muito significativo, por�m n�o se trata apenas de volume, mas tamb�m de uma variedade imensa de dados n�o estruturados que precisam ser avaliados e tratados em velocidade adequada para terem valor ao neg�cio.

De maneira mais simples, resume-se em "Big Data = volume + variedade + velocidade + veracidade, gerando valor". Volume refere-se � quantidade de dados gerados a cada segundo, variedade, porque os dados v�m de diversas fontes (estruturados e n�o estruturados), velocidade, pois se trata muitas vezes de informaç�es em tempo real, veracidade, porque � necess�rio que os dados sejam aut�nticos e façam sentido e, por fim, valor, pois � o que as organizaç�es buscam, ou seja, o retorno dos investimentos.

Com a expans�o dos conceitos de Big Data, diversas empresas j� est�o tomando iniciativas para aderir ao mesmo, por�m, sem uma estrat�gia bem definida, afinal, "Big Data n�o � apenas comprar pacotes de tecnologia, mas uma nova maneira de explorar esse imenso volume de dados que circula dentro e fora das empresas". Para aderir ao Big Data , as empresas devem estar cientes de que ser�o embutidas transformaç�es em processos de neg�cio, fonte de dados, infraestrutura de tecnologia, capacitaç�o e mudanças organizacionais na empresa e em TI.

Fases do processo de an�lise sugerido pelo Big Data

Para que ocorra sucesso com o uso desse novo conceito, � necess�rio que as organizaç�es sigam algumas fases do processo de Big Data.

A coleta de dados ou aquisiç�o e agravaç�o � a primeira fase do processo de Big Data. Nesse momento devem ser analisados o volume e a variedade dos dados que ser�o coletados. � necess�rio que se faça uma limpeza, formataç�o e validaç�o dos dados coletados, para que sejam eliminados erros, dados incompletos e incoerentes, evitando assim contaminar an�lises futuras.

Depois disso vem a fase de integraç�o, agregaç�o e representaç�o dos dados obtidos, pois diferentes tipos e formatos de dados devem receber tratamentos espec�ficos. Nesta fase � importante definir categorias de dados e crit�rios de validaç�o e aceitaç�o, tamb�m crit�rios de segurança variam de acordo com as fontes de dados.

Em seguida encontra-se a fase de an�lise e modelagem dos dados. Como se trata de dados de diversas fontes para serem analisados, requer conhecimento elevado por parte dos usu�rios. Aqui entra o "datascientist", um profissional com habilidades em ci�ncia da computaç�o, matem�tica, estat�stica e conhecimento de neg�cio. Esta fase tamb�m requer investimentos em pesquisas de novas formas de visualizaç�o, que ajudam na melhor interpretaç�o dos dados, que se trata da �ltima fase do pipeline. A Figura 1 representa as fases do processo de Big Data.

Figura 1. The Big Data Analysis Pipeline

Vantagens

Algumas das poss�veis vantagens de seu uso s�o:

Saber exatamente o que os clientes querem, estudando seus h�bitos de consumo. O conhecimento das necessidades do cliente faz com que possa ser oferecido ao mesmo exatamente o que deseja, ganhando assim a confiança;
Encontrar potenciais compradores a partir da mensuraç�o em tempo real das redes sociais. O desenvolvimento da tecnologia permite que pessoas de diversas localidades geogr�ficas conheçam o produto e ofertas em tempo real, com isso pode ocorrer expans�o nas vendas;
Prevenir poss�veis riscos para o neg�cio graças a an�lises em tempo real de distintas vari�veis do mercado. Pode ser analisado em tempo real tudo o que est� ocorrendo no mercado, sendo assim, existe possibilidade de tomar medidas preventivas e antecipat�rias em relaç�o a dificuldades e oportunidades;
Observar o que a concorr�ncia est� fazendo para desenhar ofertas especiais. Conhecer o concorrente e pensar alternativas para aumentar lucros.

Todas as observaç�es citadas pela SAP disp�em �s organizaç�es um diferencial de mercado e vantagem competitiva em relaç�o a seus concorrentes.

As vantagens do Big Data est�o relacionadas a dois fatores:

O efeito dos grandes n�meros, que garante a validade das an�lises;
A capacidade de adicionar uma multiplicidade de novos vetores de prefer�ncia, complementando e enriquecendo a qualidade das an�lises devido � observaç�o de comportamentos espec�ficos em indiv�duos com caracter�sticas similares.

Estes fatores podem ser melhor explicados nos seguintes itens:

Transformaç�o de dados n�o estruturados em informaç�o �til para an�lise sistem�tica, atrav�s de t�cnicas de Big Data que possibilitam a atribuiç�o de indicadores de �sentimento�. Neste sentido, existem j� diversos softwares que classificam os coment�rios produzidos nas redes sociais de acordo com o teor das mensagens e a sua intensidade;
Utilizaç�o dos dados de forma experimental, correlacionando grandes volumes de dados quantitativos hist�ricos com informaç�o recente, depois de passar pelo processo de estruturaç�o (por exemplo, coment�rios realizados em blus�es) e antecipando assim as expectativas do mercado;
Segmentaç�o exaustiva dos diversos perfis de consumo, permitindo identificar clusters de clientes e adaptar as abordagens de forma micro segmentadas, sempre que poss�vel em real time (por exemplo, utilizaç�o de promoç�es por georreferencia);
Aceleraç�o do processo de inovaç�o das empresas, com reflexo na rapidez do desenvolvimento de ideias para novos produtos e serviços e na sua performance esperada, permitindo endereçar n�o s� o desafio de criar ofertas inovadoras como tamb�m de gerir de forma proativa todo o customer life cycle � desde a captaç�o � retenç�o, incluindo mecanismos de aumento de valor e da satisfaç�o dos clientes nas interaç�es realizadas ao longo dos diversos pontos de contato.

O Big Data traz �s empresas a grande oportunidade de obtenç�o da excel�ncia no conhecimento mais adequado e imediato do cliente e do mercado. Essa efici�ncia est� ligada a qualidade das informaç�es integrada aos diversos sistemas corporativos e que os ganhos ser�o obtidos por aqueles que perceberem o sentido de ampliar a gama das fontes de dados e garantir veracidade e velocidade, bem como a proximidade no relacionamento com seus clientes.

O caminho da obtenç�o de vantagens competitivas trazidas pelo Big Data � o conhecimento profundo do neg�cio para perceber e chegar � combinaç�o ideal de dados e informaç�es sobre o cliente e o mercado, que possam favorecer a estrat�gia, efic�cia, aceitaç�o da proposta de valor, prever tend�ncias de consumo e, por fim, alcançar avanços na realizaç�o dos objetivos estrat�gicos da empresa.

Desafios

Para alcançar a efetividade do Big Data � necess�rio que os benef�cios estejam claros e os incentivos alinhados, criando condiç�es de aprofundar t�cnicas e utiliz�-las nas organizaç�es. Alguns dos principais desafios do Big Data s�o:

Pol�ticas de privacidade, acesso, tratamento e utilizaç�o da informaç�o: se por um lado � imprescind�vel garantir a proteç�o da privacidade dos clientes, por outro lado s� ser� poss�vel melhorar a qualidade dos dados analisados se estiver garantida o recolhimento sistem�tico de informaç�o. Mas como garantir que os clientes disponibilizem, por exemplo, informaç�o da sua localizaç�o atual? Como conseguir relacionar um determinado cliente com o seu perfil nas redes sociais? O envolvimento dos clientes � cr�tico porque s� dessa forma o ciclo de Big Data ficar� completo;
Avanço tecnol�gico e multidisciplinaridade: � medida que o volume de dados aumenta, maiores s�o os desafios que se colocam � capacidade de armazenamento e an�lise. Os principais provedores de tecnologia t�m apostado fortemente em novas t�cnicas de storage, data mining e business intelligence. No entanto, uma maior colaboraç�o com as �reas de neg�cio e os principais influenciadores em cada ind�stria ser� cr�tica para conseguir adaptar a tecnologia �s necessidades imediatas das empresas, sem ter de passar por processos morosos e custosos de implementaç�o;
Orientaç�o para o cliente: apenas percebendo o fim para o qual se destinam os dados � �til aprofundar as metodologias de Big Data. Exceder as expectativas do cliente dever� ser a principal finalidade. Para isso, a organizaç�o dever� desenvolver estrat�gias globais que permitam integrar os modelos de dados com os modelos de relaç�o nos diversos pontos de contato de forma hol�stica e din�mica, adaptando-se � expectativa de cada cliente a cada momento.

Outro desafio vis�vel em relaç�o ao Big Data � a falta de profissionais qualificados. A EMC Brasil realizou uma pesquisa onde 73% das empresas entrevistadas apontaram a cultura como sendo a maior barreira de lidar com o Big Data. O levantamento destaca que 88% das companhias acreditam que ser� um desafio capacitar seus trabalhadores para a nova TI.

De acordo com Carlos Cunha, diretor geral da EMC Brasil "N�o est� f�cil encontrar profissionais de TI. E a dificuldade para Big Data � tamanha porque o conceito vai al�m dos dados armazenados na TI tradicional�.

Utilizaç�o nas organizaç�es

A utilizaç�o do Big Data pelas organizaç�es ainda � um desafio na realidade atual. A SAS e Source Media realizaram uma pesquisa a qual apontou que a maioria das organizaç�es ainda n�o se preparou para implementar estrat�gias. A necessidade de informaç�es espec�ficas e clareza dos benef�cios, assim como o pouco apoio da liderança s�o as barreiras mais comuns para a falta de uso da tecnologia, destacou a pesquisa.

Uma pesquisa realizada pela IBM em parceria com Said Business Schoolatthe OxfordUniversity, feita com 1.144 profissionais de neg�cios e de TI, em 95 pa�ses apontou 2/3 das empresas sentem que Big Data oferece um potencial muito grande para a criaç�o de vantagens competitivas. 28% das empresas est�o desenvolvendo projetos piloto ou tem algum projeto j� em andamento, 47% ainda est�o estudando o assunto e 24% nem começaram.

No Brasil, segundo a IBM, 25% das empresas ainda n�o deram in�cio a nenhuma atividade relacionada � Big Data e 24% afirmam estar em processo de implantaç�o de seu primeiro projeto de an�lise de dados.

Existe hoje certa insegurança entre as organizaç�es em relaç�o ao Big Data, devido a que muitas associam essa inovaç�o com projetos realizados pela Google e Facebook, por exemplo, os quais envolvem investimentos considerados altos e uma quantidade consider�vel de profissionais qualificados, a qual foge da sua realidade.

Contudo, essa vis�o est� ficando de lado com o amadurecimento das soluç�es de Big Data que est�o sendo preparadas para suportar orçamentos mais modestos.

Diversas organizaç�es buscam o Big Data devido a fatores como, maior velocidade a baixo custo, que se d� unindo computaç�o e armazenamento em um hardware acess�vel. Economia com aprimoramentos de desempenho que pode ser conseguida com a tecnologia Hadoop, por exemplo.

Para Cynthia Bianco, existe uma grande procura por soluç�es Big Data no Brasil, por�m ainda s�o poucas as empresas que realmente aplicam a soluç�o, devido � dificuldade na implementaç�o, por se tratar de v�rios processos que envolvem coleta de dados e criaç�o de l�gica.

Mas este cen�rio tende a mudar, um estudo da ABI Research afirma que as organizaç�es v�o investir 31 bilh�es de d�lares neste ano de 2013, com um crescimento de 30%, chegando a 114 bilh�es de d�lares em 2018. O estudo destaca ainda que os maiores investimentos em Big Data ser�o feitos por empresas de tecnologia da informaç�o, seguidas das �reas de transportes, serviços financeiros, com�rcio, serviços p�blicos, manufatura e mineraç�o, petr�leo e g�s.

Mcafeee conduziu estudos que levaram � conclus�o de que as empresas que efetivamente utilizam Big Data s�o 5% mais produtivas e 6% mais lucrativas que seus competidores, empresas centen�rias j� est�o adotando-o como forma de promover competitividade no mercado.

A empresa alem� Bosch que atua no mercado h� 127 anos lançou iniciativas em diversas �reas da companhia. De acordo com Olhar Digital, a ideia da empresa � usar a an�lise de dados para oferecer serviços mais inteligentes aos clientes. Eles inclu�ram a intelig�ncia na frota de ve�culos de carga, na gest�o de energia e na segurança. Para desenvolver a tend�ncia dentro da empresa, a Bosch ainda criou um grupo de inovaç�o de software focado em an�lises de grandes volumes de dados e 'internet das coisas'.

A empresa GE destacou-se tamb�m pela iniciativa tomada, onde instalou sensores de fluxo de dados em turbinas, locomotivas e motores para determinar de forma mais eficaz e eficiente os intervalos de manutenç�o das m�quinas. Tudo isso usando a an�lise dos dados coletados. A organizaç�o investiu mais de US$ 2 bilh�es em novos softwares de an�lises, al�m de vender tecnologias para empresas industriais que querem usar Big Data.

Na �rea de tecnologia da informaç�o empresas como a IBM e SAS t�m se destacado quanto � criaç�o de ferramentas Big Data.

Tecnologias que sustentam Big Data

Para tratar dados na escala de volume, variedade e velocidade do Big Data se fez necess�ria a criaç�o de novos modelos para avaliar e armazenar dados. Neste contexto surgiram as tecnologias de infraestrutura, que armazenam e processam os petabytes de dados e tecnologias analytics. Para trabalhar processamento de muitos dados em tempo real, tem se usado bancos NoSQL, que permitem alto desempenho e recuperaç�o baseada em �ndice. J� para processamento em lote, tem sido usada a t�cnica MapReduce, que se trata de um modelo computacional distribu�do.

NoSQL

A ascens�o do Big Data trouxe novos desafios na forma de manipulaç�o, armazenamento e processamento de consultas, em especial na �rea de bases de dados, mineraç�o e recuperaç�o de informaç�es. Nesse aspecto, identificou-se que os bancos de dados relacionais n�o seriam mais adequados como, por exemplo, na execuç�o de consultas com baixa lat�ncia, tratamento de grandes volumes de dados, escalabilidade el�stica horizontal, suporte a modelos flex�veis de armazenamento de dados, e suporte simples a replicaç�o e distribuiç�o dos dados.

Diante disso surge uma tend�ncia para solucionar os diversos problemas e desafios gerados pelo contexto Big Data � o movimento denominado NoSQL (Not Only SQL).

A criaç�o do conceito NoSQL teve como base fatores como alta taxa de geraç�o de dados, suporte a tipos de dados complexos, semiestruturados e n�o estruturados e a dificuldade de modelagem de tais tipos de dados.

Trata-se de diferentes sistemas de armazenamento que vieram para suprir necessidades em demandas onde os bancos de dados tradicionais s�o ineficazes. Muitas dessas bases apresentam caracter�sticas muito interessantes, como alta performance, escalabilidade, replicaç�o, suporte a dados estruturados e subcolunas. Os bancos NoSQL est�o subdivididos pelo seu n�cleo:

Key/Value Store � banco de dados simples que aguenta a maior carga de dados. O seu conceito � uma chave e um valor para esta chave. Possui maior escalabilidade. Exemplos: Berkeley DB, TokyoCabinet, Project Voldermort, MemcacheDB, SimpleBD.
Wide Columns Store - suportam v�rias linhas e colunas e tamb�m subcolunas. Exemplos: BigTable, HBase (Apache), HiperTable, Cassandra (Apache).
Document Store - Baseado em documentos XML ou JSON, podem ser localizados pelo seu id �nico ou por qualquer registro que tenha no documento. Exemplos: CouchDB (Apache), MongoDB, Riak, RavenDB.
GraphStore - guardam objetos, e n�o registros como os outros tipos de NoSQL. A busca desses itens � feita pela navegaç�o desses objetos. Exemplos: Neo4J, InfoGrid, HyperGraphDB, BigData.
Column Oriented Store - Esses s�o bancos de dados relacionais, por�m apresentam caracter�sticas do NoSQL. A principal diferença deles � que os dados s�o armazenados em colunas, ajudando na escalabilidade. Exemplos: Vertica, MonetDB, LucidDB, Infobright, Ingres/Vectorwise.

Os bancos NoSQL s�o indicados para grandes cargas de dados, exig�ncia de velocidade na consulta e escrita em grandes volumes de dados. Devido a esses fatores se tornam uma boa escolha na utilizaç�o de Big Data.

Diferença entre bancos de dados relacionais e NoSQL

Bancos de dados NoSQL s�o uma soluç�o alternativa para os bancos de dados relacionais, possuem uma alta escalabilidade e desempenho. Bancos de dados relacionais baseiam-se no fato de que todos os dados est�o guardados em tabelas, pelo conceito de entidade e relacionamento. Os dados s�o separados de forma �nica, tentando diminuir ao m�ximo a redund�ncia, pois a informaç�o � criada pelo conjunto dos dados, onde s�o as relaç�es entre as tabelas que fazem esse serviço.

As caracter�sticas do NoSQL s�o registros, schema-free, toler�ncia � falha, escalabilidade, clusterizaç�o, mapreduce, sharding. Enquanto isso, as principais caracter�sticas dos bancos relacionais s�o tabelas, schema definido, hierarquia, redund�ncia m�nima, entidade e relacionamento, formas normais, transaç�es ACID (Atomicidade, Consist�ncia, Isolamento, Durabilidade).

Em relaç�o �s necessidades o NoSQL: sistemas em nuvem, an�lises sociais, alta escalabilidade, performance na consulta/escrita, replicaç�o. J� os relacionais: sistemas locais, financeiros, corporativos; segurança da informaç�o; consist�ncia dos dados.

Como casos de sucesso do NoSQL podem ser citados Twitter, Facebook, Digg, Amazon, LinkedIN, Google, Yahoo, The New York Times, Bit. ly. No modelo relacional SAP, OpenERP, Previd�ncia, Social, Caixa, Ita�, Salesforce, Vale.

A Tabela 1 apresenta uma an�lise comparativa do modelo de dados relacional e o modelo NoSQL.

	Relacional	NoSQL
Escalonamento	Poss�vel, mas complexo. Devido � natureza estruturada do modelo, a adiç�o de forma din�mica e transparente de novos n�s no grid n�o � realizada de modo natural.	Uma das principais vantagens desse modelo. Por n�o possuir nenhum tipo de esquema pr�-definido, o modelo possui maior flexibilidade o que favorece a inclus�o transparente de outros elementos.
Consist�ncia	Ponto mais forte do modelo relacional. As regras de consist�ncia presentes propiciam um maior grau de rigor quanto � consist�ncia das informaç�es.	Realizada de modo eventual no modelo: s� garante que, se nenhuma atualizaç�o for realizada sobre o item de dados, todos os acessos a esse item devolver�o o �ltimo valor atualizado.
Disponibilidade	Dada a dificuldade de se conseguir trabalhar de forma eficiente com a distribuiç�o dos dados, esse modelo pode n�o suportar a demanda muito grande de informaç�es do banco.	Outro fator fundamental do sucesso desse modelo. O alto grau de distribuiç�o dos dados propicia que um maior n�mero de solicitaç�es aos dados seja atendida por parte do sistema e que o sistema fique menos tempo n�o dispon�vel.

Tabela 1. An�lise Comparativa Modelo Relacional x NoSQL

Com a necessidade de uso do NoSQL, empresas começaram a investir em desenvolvimento de seus pr�prios SGBDs:

Apache Cassandra: Desenvolvido inicialmente pelo Facebook, � um projeto de sistema de banco de dados distribu�do, altamente escal�vel, que foi desenvolvido na plataforma Java. Re�ne a arquitetura do Dynamo da Amazon e o modelo de dados do BigTable da Google. Exerce com excel�ncia a funç�o de reposit�rio de dados. Teve seu c�digo-fonte aberto � comunidade em 2008. Atualmente � mantido por desenvolvedores da fundaç�o Apache e colaboradores de outras empresas;
Apache CouchDB: � um banco de dados orientado a documentos de c�digo fonte aberto escrito em linguagem Erlang. Foi desenvolvido e mantido pela fundaç�o Apache e busca replicaç�o e escalabilidade horizontal;
BigTable: Foi desenvolvido pela Google para distribuir dados por centenas de servidores e escalar por conjuntos de dados de at� 1 petabyte. Uma grande variedade de aplicativos da empresa usa o BigTable, entre eles �ndices da web, Google Earth, Maps, YouTube entre outros. � propriet�rio, por�m o modelo de dados existe em implementaç�es de c�digo aberto. Pode ser usado como input ou output para o Mapreduce, que ativa o processo de distribuiç�o de arquivos ou banco de dados usando funç�es de mapeamento e reduç�o;
Dynamo: Desenvolvido pela Amazon em 2007, foi criado para oferecer armazenamento de valores-chaves de dados de alta disponibilidade, permitindo atualizaç�es para sobreviver a falhar de servidor e rede;
MongoDB: Combina as melhores funcionalidades de orientaç�o a documentos, Assis e RDBMSs. � um banco de dados orientado a documentos, escal�vel, livre de esquema, de alto desempenho e c�digo aberto escrito em C++.

MapReduce

O modelo de programaç�o MapReduce � projetado para computar grandes volumes de dados de um modo paralelo e serve para dividir a carga de trabalho entre diversos n�s do cluster. Suas etapas transformam listas de elementos de entrada em listas de elementos de sa�da e foram inspiradas nas linguagens funcionais. Esse modelo segue a arquitetura de comunicaç�o mestre-escravo, em que um n�, chamado de mestre, controla v�rios outros n�s, chamados de escravos. O processamento do MapReduce � dividido em tr�s partes:

Na fase map, o n� mestre tem a funç�o de quebrar os dados de entrada em pedaços menores e distribu�-los entre os n�s escravos do cluster, a partir da� o processamento � feito paralelamente. Quando todos os n�s escravos terminam a funç�o map, as respostas s�o estruturas de dados de chave-valor e s�o enviadas como entrada para a pr�xima fase;
Na fase shuffle e sort, a lista de entrada de todos os n�s � agregada e ordenada com coordenaç�o do n� mestre, criando uma nova lista com elementos do tipo chave-valor. Seu resultado � enviado para a entrada da fase de reduce;
Na fase do reduce, o n� mestre novamente divide a lista de entrada entre todos os n�s escravos. Ela � iterada e a funç�o reduce realiza algum processamento sobre os valores de cada chave.

Na Figura 2 pode ser observada a entrada de dados (input data), em seguida o MapReduce se encarrega de dividir os dados de entrada em pedaços de mais ou menos igual tamanho (input data part 1, input data part N), gerando um n�mero de inst�ncias de processamento para a fase de mapa repartir os dados para cada um dos cart�grafos (map instance #1, map instance #N), que acompanha o status de cada mapeador. Em seguida, � feito o encaminhamento dos resultados no mapa para a fase de reduzir (reduce instance) e, finalmente, fecha-se os cart�grafos e os redutores (output data).

Figura 2. Processo MapReduce

O modelo de programaç�o MapReduce tem algumas implementaç�es, por�m, a mais utilizada � a do Hadoop.

Hadoop

O Hadoop foi a primeira implementaç�o gratuita para o MapReduce, em um projeto criado pela Fundaç�o Apache. O Hadoop foi criado pelo Yahoo em 2005 e pode ser considerado um dos maiores inventos de data management desde o modelo relacional. Hoje o mesmo � um dos projetos da comunidade Apache e vem sendo adotado por empresas que precisam tratar volumes massivos de dados n�o estruturados.

Na pr�tica Hadoop s�o uma combinaç�o de dois projetos separados, que s�o o Hadoop MapReduce (HMR) e o Hadoop Distributed File System (HDFS). O HMR � um framework para processamento paralelo e um spinoff do MapReduce, software que o Google usa para acelerar as pesquisas endereçadas ao seu buscador. O HDFS � um sistema de arquivos distribu�dos, otimizado para atuar em dados n�o estruturados, e � tamb�m baseado na tecnologia do Google, neste caso o Google File System. Existe tamb�m o Hadoop Common, conjunto de bibliotecas e utilit�rios que suportam os projetos Hadoop. Na pr�tica, para que o HMR processe os dados, eles devem estar armazenados no HDFS.

A IBM usa intensamente o Hadoop em diversos projetos. A empresa integra-o a outros de seus softwares como o Cognos, criando soluç�es para tratamento anal�tico de dados massivos e n�o estruturados, como o Info Sphere Big Insights, que agrega um conjunto de tecnologias open source como o pr�prio Hadoop, Nutch e Pig, com as tecnologias pr�prias da IBM, como InfoSphere e ManyEyes.

Haddop � um projeto de software de c�digo aberto que permite o processamento distribu�do de grandes conjuntos de dados em clusters de servidores de commodities. O mesmo foi concebido para escalar a partir de um �nico servidor de milhares de m�quinas, com um elevado grau de toler�ncia a falhas. Possui capacidade para detectar e lidar com falhas na camada de aplicaç�o.

Existem v�rias definiç�es de Hadoop, cada uma visando um p�blico diferente dentro da empresa:

Para os executivos: Hadoop � um projeto de software livre da Apache que tem como objetivo obter valor do volume/velocidade/variedade incr�vel de dados sobre sua organizaç�o. Use os dados em vez de jogar a maioria fora;
Para os gerentes t�cnicos: um conjunto de softwares livres que mina o BigData estruturado e n�o estruturado de sua empresa. Ele integra com seu ecossistema existente de Business Intelligence;
Jur�dico: um conjunto de software livre empacotado e suportado por diversos fornecedores;
Engenharia: um ambiente de execuç�o Mapear/Reduzir massivamente paralelo, sem compartilhamento e baseado em Java. Imagine de centenas a milhares de computadores trabalhando no mesmo problema, com resili�ncia integrada contra falhas. Projetos no ecossistema Hadoop fornecem carregamento de dados, linguagens de n�vel superior, implementaç�o automatizada na nuvem e outros recursos.
Segurança: um su�te de software protegido por Kerberos.

O Hadoop muda a economia e a din�mica da computaç�o em larga escala. Seu impacto pode ser resumido a quatro caracter�sticas marcantes:

Scalable- Novos n�s podem ser adicionados sem necessidade de alterar os formatos de dados, como os dados s�o carregados, como os trabalhos s�o escritos, ou as aplicaç�es que acessam os dados;
Custo-benef�cio- Hadoop traz computaç�o massivamente paralela aos servidores das commodities. O resultado � uma diminuiç�o consider�vel no custo por terabyte de armazenamento, o que o torna acess�vel para modelar todos os seus dados.
Flex�vel- Hadoop � schema-less, e pode absorver qualquer tipo de dados, estruturados ou n�o, de qualquer n�mero de fontes. Dados de v�rias fontes podem ser unidos e agregados de forma arbitr�ria, permitindo an�lises mais profundas do que qualquer sistema pode proporcionar;
Tolerante a falhas- Quando voc� perde um n�, o sistema redireciona para outro local de trabalho dos dados e o processamento continua.

O projeto Hadoop inclui os seguintes m�dulos:

Hadoop Common: Os utilit�rios comuns que suportam os outros m�dulos do Hadoop;
Hadoop Distributed File System (HDFS �): Um sistema de arquivos distribu�do que fornece acesso high-throughput de dados do aplicativo;
Hadoop FIO: Um framework para programaç�o de trabalho e gest�o de recursos de cluster;
Hadoop MapReduce: Um sistema baseado em FIO para processamento paralelo de grandes conjuntos de dados.

Especialistas informam que as tecnologias Hadoop est�o se tornando fundamentais para ajudar empresas a gerirem grandes volumes de dados. Entre as principais organizaç�es que abraçaram a ferramenta est�o NASA, Twitter e Netflix.

Este artigo buscou apresentar e esclarecer o conceito Big Data de forma a facilitar o entendimento e sua utilizaç�o nas organizaç�es. O conceito de Big Data traz v�rias definiç�es se analisado sob diversas �ticas, mas ainda assim pode ser resumido como conceitos e tecnologias de se trabalhar com grandes volumes de dados, de diferentes tipos, a uma velocidade consider�vel. Com isso, visa auxiliar as organizaç�es para que tenham diferencial de mercado.

As vantagens de se trabalhar como o Big Data s�o in�meras, mas o grande diferencial � que o Big Data auxilia as organizaç�es no conhecimento profundo dos seus neg�cios e as faz perceber e chegar � combinaç�o ideal de dados e informaç�es sobre o cliente e o mercado, dados estes que favorecem a estrat�gia, efic�cia, aceitaç�o da proposta de valor e as faz alcançar avanços na realizaç�o dos objetivos estrat�gicos da empresa.

Em contrapartida, existem alguns desafios a como trabalhar com a privacidade dos dados e a falta de m�o de obra qualificada na �rea.

O n�mero de empresas que tem aderido ao conceito de Big Data tem aumentado desde a formalizaç�o do seu conceito, mas ainda existe uma certa cautela devido a custos elevados e o pouco conhecimento que se tem a respeito do assunto. Contudo, existem casos de sucesso como a empresa Bosch, que tem adotado os conceitos de Big Data e tirado proveito de suas vantagens.

Para sustentar o Big Data, existem tecnologias de infraestrutura, que armazenam e processam os petabytes de dados e tecnologias analytics. Para trabalhar processamento de muitos dados em tempo real, tem se usado bancos NoSQL, que permitem alto desempenho e recuperaç�o baseada em �ndice. J� para processamento em lote, tem sido usada a t�cnica MapReduce, que se trata de um modelo computacional distribu�do.

Diante de v�rios conceitos, confirmaç�es e d�vidas que est�o em torno ao Big Data, alguns autores apontam que essa tecnologia est� crescendo e que � a tend�ncia dos pr�ximos anos.

Saiu na DevMedia!

Que JavaScript � esse?:
Apresentamos aqui o JavaScript na sua vers�o mais moderna. Ao acompanhar os cursos dessa s�rie voc� se sentir� � vontade para programar em Angular, React ou Vue.

Saiba mais sobre Big Data ;)

Engenharia de Software:
Encontre aqui os Guias de estudo sobre os principais temas da Engenharia de Software. De metodologias �geis a testes, de requisitos a gest�o de projetos!

Refer�ncias:

AGRAWAL, Divyakant; BERNSTEIN, Philip; BERTINO, Elisa et. al. Challenges and Opportunities with Big Data.EUA: 2011/2012
GREGO, Mauricio. Big Data deve movimentar 114 bilh�es de d�lares em 2018. Exame.com
TAURION, Cezar. Big Data . S�o Paulo: Brasport, 2013.

Big Data Tutorial

Conheça nesse artigo o conceito de Big Data, as vantagens e desafios em sua utilização e identifique a sua aplicação em ambientes corporativos.