Data Deduplication: Removendo dados duplicados no Windows Server

Data Deduplication

O crescente aumento do volume de dados das organizaç�es � um assunto pertinente �s equipes de infraestrutura de TI. Devido a esse aumento, torna-se necess�rio oferecer uma capacidade de storage com um volume cada vez maior.

Para o usu�rio, � imprescind�vel dispor de um bom volume de espaço dispon�vel para armazenar os arquivos utilizados no dia-a-dia de suas atividades. Por�m, grande parte do armazenamento consumido est� relacionado a arquivos duplicados e outros dados redundantes armazenados pelos usu�rios em um ambiente de rede.

Pensando em solucionar esse problema, este artigo apresentar�, na teoria e na pr�tica, o Data Deduplication, sendo �til para os administradores de TI que pretendem implantar tal tecnologia em seu ambiente, tendo como principal objetivo a economia de espaço utilizado e a consequente reduç�o dos custos de armazenamento.

Um dos grandes desafios da administraç�o de TI nos dias atuais � atender as crescentes demandas de armazenamento de dados dentro de uma organizaç�o. Hoje os usu�rios necessitam armazenar milhares de arquivos texto, planilhas, imagens, v�deos, m�sicas, e-mails, entre outros tipos de dados.

H� anos essa situaç�o tamb�m j� existia, em uma proporç�o menor, por�m, com o avanço tecnol�gico, os arquivos e processos ficaram maiores. Assim, para que a TI possa atender as novas demandas de neg�cio, � necess�rio investimento em v�rias frentes, e no armazenamento � uma delas.

Contudo, n�o bastasse o grande desafio de fornecer armazenamento para os usu�rios, lidando com altos volumes de dados e alto investimento em hardware, � necess�rio entender tamb�m como os usu�rios armazenam estes dados nos servidores.

N�o � incomum verificar diversos tipos de arquivos duplicados em um servidor de arquivos. Por exemplo, um grupo de usu�rios do departamento de Contabilidade recebe por e-mail a ata de reuni�o realizada por eles.

Supondo que este grupo tenha 30 pessoas, este mesmo arquivo poder� ser armazenado at� 30 vezes em locais diferentes em um compartilhamento de rede, j� que, al�m de pastas departamentais, os usu�rios possuem tamb�m pastas pessoais.

Neste exemplo, uma ata de reuni�o pode significar pouco espaço. Por�m, dependendo do tipo de arquivo (apresentaç�es de slides, v�deos, m�sicas, etc.) esse volume desperdiçado pode ser muito maior. Assim, seria de grande ajuda se estes dados duplicados pudessem ser eliminados, sem atrapalhar as atividades dos usu�rios.

Pensando nisso, neste artigo ser� abordado o conceito de Data Deduplication no Windows Server 2012, ferramenta poderosa que auxilia os administradores de TI a eliminar os dados duplicados no seu ambiente.

O que � o Data Deduplication?

Data Deduplication � um recurso dispon�vel no Windows Server 2012 e Windows Server 2012 R2 utilizado para maximizar o espaço de armazenamento de dados.

O conceito de eliminaç�o de dados duplicados n�o � novo. Atualmente existem diversas ferramentas (em formato de appliance de hardware ou software) que realizam esta funç�o, por�m, por apresentarem um alto custo e uma alta curva de aprendizado, n�o s�o adotadas pelas empresas.

At� que tivemos o lançamento do Windows Server 2012, que trouxe como uma de suas principais novidades uma nova funç�o, chamada de Data Deduplication. O Data Deduplication � uma tecnologia baseada em software que permite maximizar o uso da capacidade de armazenamento de dados da organizaç�o, e o seu o princ�pio b�sico � a n�o necessidade de armazenamento do mesmo arquivo v�rias vezes.

Como funciona a eliminaç�o dos dados duplicados?

Quando configurada a ferramenta Data Deduplication, o primeiro passo efetuado � uma varredura no volume em busca dos dados duplicados.

Durante este processo, o Data Deduplication simplesmente identificar� os dados que est�o em duplicidade. Ap�s identificados, a ferramenta ir� manter apenas uma c�pia do mesmo, e as demais ser�o substitu�das por uma refer�ncia � c�pia principal.

Todos sabem que os arquivos s�o formados por metadados, que cont�m informaç�es sobre o nome do arquivo, atributos, entre outras. Al�m disso, tamb�m sabemos que um arquivo � composto por diversos pedaços. Na Figura 1 temos o exemplo do arquivo Teste01 no formato NTFS. Note que este arquivo possui diversos �pedaços�, descritos como A, B, C, D e E.

Figura 1. Formato do arquivo Teste01.

J� a Figura 2 mostra o arquivo Teste02, que possui tamb�m diversos pedaços, assim como o arquivo Teste01, descritos como A, B, C, W e K.

Durante o processo de an�lise, o Data Deduplication ir� analisar os arquivos do volume em que est� configurado e ir� encontrar os dados que est�o em duplicidade.

Figura 2. Formato do arquivo Teste02.

Nesse momento, o Data Deduplication identificar� que os arquivos Teste01 e Teste02 possuem dados em comum (duplicados). Ent�o, ser�o gerados dados de an�lise na estrutura dos dois arquivos, como indicado na Figura 3. Estes dados de an�lise armazenar�o informaç�es sobre a identificaç�o dos dados do arquivo e tamb�m dos links de apontamento para os blocos da c�pia principal, eliminando assim o dado duplicado.

Figura 3. Identificaç�o dos dados duplicados e link para substituiç�o da informaç�o.

Quais resultados esperar com Data Deduplication?

Para que se possa realizar uma avaliaç�o dos resultados a serem alcançados com a utilizaç�o do Data Deduplication, devemos primeiro avaliar os dados que est�o dentro do volume que ser� afetado.

A efici�ncia da eliminaç�o dos dados duplicados ser� diretamente proporcional ao tipo de arquivo que o volume possui. As taxas de economia de espaço podem variar de 30% a 90%, segundo dados da pr�pria Microsoft.

A Tabela 1 apresenta a relaç�o de economia de volume de acordo com o tipo de conte�do dos arquivos.

Cen�rio do Volume de dados	Conte�do	Economia de espaço (variaç�o)
Documentos diversos	Texto, imagem, �udio e v�deo	30-50%
Arquivos compartilhados pelo sistemas	Bin�rios de software, arquivos de sistema, arquivos de s�mbolo	70-80%
Volumes de virtualizaç�o	Arquivos de disco r�gido virtual	80-95%

Tabela 1 Reduç�o vari�vel de dados em um volume com Data Deduplication.

Como a eliminaç�o dos dados tamb�m exige tempo de leitura, processamento e gravaç�o de dados, � necess�rio avaliar os recursos do servidor onde este recurso ser� aplicado. Um servidor que sempre estiver utilizando sua capacidade m�xima ter� falta de recursos para realizar a eliminaç�o dos dados.

Podemos exemplificar essa situaç�o com um servidor de arquivos que utiliza todos os seus recursos durante o per�odo comercial (08h00 as 18h00). Em casos como este, onde o consumo de mem�ria, de processamento e de disco s�o elevados, o Data Deduplication poder� ser configurado para ser executado em um per�odo no qual a demanda � praticamente nula (fora do hor�rio comercial), e desta forma, ir� aumentar a efici�ncia do Data Deduplication.

Segundo a Microsoft, os tipos de servidores candidatos � eliminaç�o de dados podem ser classificados a partir da an�lise da economia de espaço adquirida e dos recursos utilizados (mem�ria, processamento, etc.).

De acordo com exaustivos testes e laborat�rios por ela realizados, os candidatos s�o divididos em tr�s categorias:

�timos candidatos para eliminaç�o de duplicaç�o:
o Servidores de redirecionamento de pastas;
o Reposit�rio de virtualizaç�o ou biblioteca de provisionamento;
o Compartilhamentos de implantaç�es de software;
o Volumes de backup do SQL Server e do Exchange Server.
Candidatos que devem ser avaliados com base no conte�do dos dados a serem eliminados:
o Servidores de linha de neg�cios (servidores que hospedam aplicaç�es cr�ticas para o neg�cio);
o Provedores de conte�do est�tico;
o Servidores Web.
Candidatos ruins para a eliminaç�o de duplicaç�o:
o Hosts de Hyper-V;
o WSUS (Windows Server Updates Services) � Servidor de atualizaç�es do Windows;
o Servidores que executam SQL Server ou Exchange Server;

o Arquivos com tamanho pr�ximo a 1 TB ou que sejam maiores que isso.

Al�m das informaç�es citadas anteriormente, outros fatores devem ser levados em consideraç�o antes da implementaç�o do Data Deduplication. S�o eles:

O volume a ser configurado n�o pode ser o de inicializaç�o de sistema. O Data Deduplication n�o suporta configuraç�o em volumes que contenham a instalaç�o do sistema operacional;
A partiç�o pode ser MBR (Master Boot Record) ou GPT (GUID Partition Table), e devem estar formatadas em NTFS;
Os arquivos com atributos estendidos, arquivos criptografados e arquivos menores que 32KB n�o s�o processados pelo Data Deduplication;
Arquivos que s�o abertos ou alterados constantemente n�o ter�o economia (como m�quinas virtuais, bancos de dados, etc.), j� que, como os dados est�o em uso, n�o ser� poss�vel realizar a eliminaç�o dos dados duplicados;
N�o suporta dispositivos remov�veis.

Backup e Restore

Um recurso que � bastante impactado (de forma positiva) pelo uso de Data Deduplication � o backup dos dados da organizaç�o, visto que, com o aumento crescente da quantidade de dados sendo armazenados, consequentemente necessita-se de mais espaço para realizaç�o do backup.

Dito isso, atualmente, quais s�o os fatores que influenciam a realizaç�o de uma pol�tica de backup em uma organizaç�o?

Investimento: Compra de hardware para backup. Se a empresa pretende gravar os dados em fitas, � necess�rio um hardware espec�fico para que a gravaç�o seja realizada;
Volume: Quanto maior o volume de dados, maior ser� a quantidade de fitas necess�rias para realizaç�o do backup;
Janela de Backup: A junç�o do volume de dados ao hardware utilizado ir� influenciar diretamente na janela de backup, j� que quanto maior o volume de dados, maior ser� o tempo necess�rio para gravaç�o.
Para diminuir essa janela, � necess�rio hardware com velocidade maior para acelerar o processo. Consequentemente, a janela de backup tamb�m � importante, porque ela deve estar alinhada �s necessidades da pol�tica de backup da empresa.
Por exemplo, caso a empresa tenha necessidade de garantir uma retenç�o de dados que foram salvos nas fitas por uma semana, esta janela n�o pode ter um per�odo maior do que sete dias para ocorrer, caso contr�rio, n�o atender� � pol�tica adotada;
Restore: Quanto tempo seria necess�rio para restauraç�o dos dados em caso de um desastre? Se por algum motivo acontecer um problema e a restauraç�o dos dados se torna necess�ria, o tempo do restore ser� proporcional ao volume de dados persistido no backup, ou seja, quanto maior o volume, mais tempo ser� gasto para executar a restauraç�o.

Um volume com os dados duplicados eliminados ir� proporcionar a realizaç�o de um backup mais r�pido, consumindo um menor n�mero de fitas e otimizando o tempo de restore.

A funç�o Windows Backup, nativa no Windows Server, possui suporte para realizaç�o de backups de volumes que estejam com o recurso de Data Deduplication ativado. E al�m da Microsoft, existem outros fornecedores que disponibilizam ferramentas de backup com suporte a esta funç�o (HP, CA, etc). Deste modo, antes de adquirir uma destas soluç�es, � aconselh�vel consultar a documentaç�o de cada produto.

Com isso, podemos afirmar que al�m do benef�cio da economia de espaço em disco gerado pela eliminaç�o dos dados duplicados, o ganho com a performance do backup tamb�m � muito v�lido e deve ser analisado no momento da implantaç�o desse recurso.

Data Deduplication no Windows Server 2012 R2

Neste t�pico ser� demonstrado como implementar a funç�o de Data Deduplication no Windows Server 2012 R2. Para isto, existem duas opç�es: atrav�s do Server Manager e atrav�s do Powershell.

O Server Manager � uma ferramenta que tem como funç�o auxiliar os administradores de TI, centralizando diversas opç�es para instalaç�o, configuraç�o e gerenciamento de funç�es e recursos de servidores. Quando um usu�rio faz logon em um servidor, por padr�o, a janela do Server Manager � iniciada, conforme demonstra a Figura 4.

Figura 4. Tela Inicial do Server Manager.

Para realizar a instalaç�o do Data Deduplication atrav�s do Server Manager, na tela inicial, clique em Add roles and features. Feito isso, ser� carregada a tela inicial para instalaç�o e configuraç�o de Roles (Funç�es) e Features (Recursos).

A primeira tela mostra uma vis�o geral do assistente e lista algumas informaç�es antes de prosseguir com a instalaç�o. Esta lista destaca algumas boas pr�ticas ao administrar servidores, a saber: ter uma senha de administrador forte; que as configuraç�es de rede, como os endereços IP est�ticos, j� estejam definidas; e ter as atualizaç�es do Windows Update instaladas (ver Figura 5). Para confirmar estas informaç�es, basta clicar em Next. Neste ponto vale ressaltar que esses itens n�o s�o pr�-requisitos, portanto, mesmo n�o sendo atendidos, a instalaç�o poder� continuar sem problemas.

Figura 5. Tela inicial do assistente para adicionar Roles e Features.

A segunda janela do assistente ir� definir o tipo de instalaç�o, fornecendo duas opç�es: Instalaç�o baseada em Role ou Feature ou Instalaç�o para Serviços de Desktop Remoto. Neste caso, utilizaremos a primeira opç�o, como indica a Figura 6. Feito isso, clique mais uma vez em Next.

Figura 6. Seleç�o do tipo de instalaç�o.

No terceiro passo deve-se selecionar o servidor ou o disco virtual onde desejamos implantar o Data Deduplication. Neste caso, marque a primeira opç�o e depois selecione o servidor SRVDC01, conforme indica a Figura 7. Em seguida, clique em Next.

Figura 7. Seleç�o do servidor de destino.

No quarto passo, devemos selecionar quais Roles ser�o instaladas. O assistente ir� listar as Roles dispon�veis para instalaç�o no servidor (como DNS Server, Hyper-V, DHCP Server, entre outros). Para tanto, expanda a opç�o File and Storage Services, depois File and iSCSI Services e selecione Data Deduplication, conforme a Figura 8. Logo ap�s, clique novamente em Next.

Figura 8. Seleç�o da Role Data Deduplication.

No quinto passo, deve-se selecionar as Features que ser�o instaladas. Neste laborat�rio, n�o iremos instalar nenhuma Feature. Portanto, podemos avançar neste passo. O sexto passo, que � o final, ir� mostrar um resumo do que ser� instalado.

Nesta janela tamb�m h� uma opç�o que, ao ser marcada, reiniciar� o servidor destino assim que a instalaç�o for conclu�da, caso seja necess�rio. Observe a Figura 9.

Figura 9 . Resumo da instalaç�o.

A segunda forma para instalaç�o do Data Deduplication � atrav�s do PowerShell. Para tanto, abra o Windows Powershell e execute os comandos apresentados a seguir, que tamb�m podem ser analisados na Figura 10:

Import-Module ServerManager

Add-WindowsFeature �name FS-Data-Deduplication

Import�Module Deduplication

Figura 10. Instalaç�o do Data Deduplication atrav�s do PowerShell.

Ap�s completar a instalaç�o do Data Deduplication, podemos verificar no Server Manager uma nova guia de navegaç�o, denominada File and Storage Services (veja a Figura 11). Ser� esta guia que ser� utilizada para realizar as configuraç�es deste recurso.

Figura 11. Server Manager com a guia File and Storage Services.

Agora que a funç�o est� instalada, o pr�ximo passo � habilit�-la e configur�-la nos volumes de dados desejados. Para esta demonstraç�o, foi criada uma partiç�o de 30 GB, denominada Teste_Dedup, conforme a Figura 12, que pode ser analisada atrav�s do Computer Management, localizado junto �s ferramentas administrativas do Windows.

Figura 12. Volume de dados criado para realizar a demostraç�o do Data Deduplication.

Para iniciar a configuraç�o do Data Deduplication, no Server Manager, acesse a guia File and Storage Services e depois a guia Disk, para exibir os discos e os volumes existentes no servidor (veja a Figura 13).

Figura 13. Discos e volumes dispon�veis no Server Manager.

No espaço Volumes, visualizado na parte inferior da janela, s�o exibidos os volumes dispon�veis. Conforme comentado anteriormente, foi criado um volume para realizaç�o desta demonstraç�o, representado pela unidade E.

Assim, clique com o bot�o direito do mouse sobre este volume e selecione a opç�o Configure Data Deduplication, de acordo com a Figura 14.

Figura 14. Configurando o Data Deduplication no volume E.

Na janela Deduplication Settings, � necess�rio selecionar algumas opç�es para configurar o Data Deduplication, a saber:

� Em Data deduplication, podemos definir o tipo do volume a ser utilizado, que pode ser General Purpose file server (Servidor de Arquivos de Uso Geral) ou Virtual Desktop Infrastructure (VDI) Server (Servidor para infraesturtura virtual VDI);

� Em Deduplicate files older than (in days), podemos definir a partir de quantos dias o arquivo ser� eliminado. Caso informe 3, os dados que forem gravados s� ser�o analisados ap�s o terceiro dia;

� Em Custom file extensions to exclude, podemos definir extens�es de arquivos a serem exclu�das do processo de eliminaç�o de dados duplicados;

� Por fim, em To exclude selected folders from data deduplication, podemos definir pastas que devem ser exclu�das da verificaç�o para eliminaç�o de dados duplicados.

Na Figura 15 apresentamos as configuraç�es que realizamos para o nosso exemplo.

Figura 15. Propriedades de configuraç�o do Data Deduplication.

Nesta janela tamb�m � poss�vel clicar no bot�o Set Deduplication Schedule..., que permite configurar a opç�o Enable background optimization (Otimizaç�o de Desempenho em Segundo Plano), onde o Data Deduplication ir� utilizar o sistema de forma a minimizar o impacto no desempenho do servidor, e tamb�m a opç�o Enable throughput optimization (Habilitar a otimizaç�o do rendimento), que possibilita agendar as datas e hor�rios espec�ficos para rodar o Data Deduplication, podendo assim consumir o m�ximo de recursos dispon�veis no servidor (veja a Figura 16).

Figura 16. Opç�es de agendamento para eliminaç�o de dados duplicados.

Verificando o desempenho do Data Deduplication

Para demonstrar a execuç�o deste recurso, foram gravados neste disco de teste aproximadamente 25 GB de dados variados, contendo documentos de texto, imagens, arquivos de �udio, v�deos, entre outros, como pode ser verificado na Figura 17.

Figura 17. Volume de dados gravado no volume.

Neste ambiente de teste, ap�s 48 horas, j� � poss�vel verificar e analisar os resultados obtidos com a utilizaç�o do Data Deduplication. O tempo necess�rio para realizaç�o da eliminaç�o de dados duplicados varia de acordo com o tipo de dado armazenado, o volume total de dados, entre outros fatores, como a utilizaç�o da otimizaç�o em segundo plano e a otimizaç�o de desempenho.

Analisando as propriedades da pasta Documentos, conforme a Figura 18, pode-se verificar que o volume possui um total de dados de 23,4 GB, informado no campo Size, e ap�s a realizaç�o da eliminaç�o dos dados duplicados, passa a apresentar um volume gravado no disco (Size on Disk) de 187 MB. Como pode-se notar, neste exemplo a economia de armazenamento de disco gerada pelo Data Deduplication foi de 23 GB.

Figura 18. Volume de dados ap�s a eliminaç�o dos dados duplicados.

Tamb�m � poss�vel verificar nas propriedades do disco a economia gerada pelo Data Deduplication, como demonstra a Figura 19.

Figura 19. Propriedades do volume de dados.

Outra forma de validar os ganhos com Data Deduplication � atrav�s do PowerShell. Com dois comandos podemos analisar o status da eliminaç�o dos dados e diversas outras informaç�es.

O primeiro comando mostra um resumo do volume que teve os dados duplicados eliminados (ver Figura 20). Para verificar esses dados, abra o PowerShell e digite o seguinte comando: Get-DedupVolume.

Figura 20. Resultado do comando Get-DedupVolume.

O segundo comando tamb�m mostra um resumo, por�m mais detalhado (ver Figura 21). Para verificar esses dados, com o PowerShell aberto, execute o seguinte comando:

Get-DadepVolume |fl.

Figura 21. Resultado do comando Get-DedupVolume |fl.

Em ambos os casos � poss�vel constatar que, no laborat�rio realizado, o Data Deduplication economizou 94% do espaço no volume (informaç�o indicada no campo SavingsRate).

A utilizaç�o da ferramenta Data Deduplication pode trazer muitos resultados positivos para as organizaç�es. Dentre eles, podemos destacar a reduç�o do espaço utilizado para armazenamento de dados, maior agilidade na realizaç�o e restauraç�o de backups, e reduç�o do custo de investimento em TI.

Assim, com a realizaç�o de um planejamento para implantaç�o deste recurso, a administraç�o de TI ter� uma poderosa ferramenta que proporcionar� tanto benef�cios de economia de espaço em disco, como benef�cios financeiros, j� que, com a reduç�o de consumo, n�o ser� necess�rio o investimento recorrente em hardware para armazenamento de dados.

Links �teis

O que � .NET Core?:
Neste curso aprenderemos o que � o .NET Core, uma plataforma para desenvolvimento de aplicaç�es desenvolvida e mantida pela Microsoft.
6 Dicas para melhorar seu c�digo:
Para um bom programador n�o basta apenas funcionar, o c�digo precisa atender a alguns requisitos m�nimos de qualidade. Confira neste DevCast 6 dicas para tornar o seu c�digo mais leg�vel e organizado.
Como tratar exceç�es na linguagem Java:
Aprenda o que � o mecanismo de exceç�es do Java, conheça as suas categorias e saiba como desenvolver programas que consigam tratar suas pr�prias exceç�es.

Saiba mais sobre Administraç�o de TI ;)

Guias Engenharia de Software:
Encontre aqui os Guias de estudo sobre os principais temas da Engenharia de Software. De metodologias �geis a testes, de requisitos a gest�o de projetos!
Gest�o de Projeto:
Neste guia voc� encontrar� o conte�do que precisa para saber como gerenciar projetos de software. Confira abaixo a sequ�ncia de posts que te guiar�o do b�sico ao avançado em Gest�o de Projetos.
Testes de Software:
Neste guia de consulta voc� encontrar� diversos artigos e v�deos que podem ser usados ao longo dos seus estudos sobre Testes de Software, abordando diversas t�cnica e ferramentas.

Refer�ncias:

Vis�o Geral de Eliminaç�o de Duplicaç�o de Dados

Microsoft Press blog - Windows Server 2012�s Data Deduplication feature

Step-by-Step: Reduce Storage Costs with Data Deduplication in Windows Server 2012

Data Deduplication: Removendo dados duplicados no Windows Server

Veja nesse artigo como eliminar os dados duplicados nos servidores Windows Server com a Data Deduplication.