Extrair dados de um formul�rio de cadastro

27/06/2019

Ol� pessoal!

Preciso extrair uma quantidade razo�vel de dados de um site de um cliente com dois prop�sitos bem espec�ficos:
1) Aprender mais sobre linguagem PhP e programa��o no geral
2) Manipular estes dados no futuro para facilitar meu trabalho e me tomar menos tempo.

Mas, vamos por partes. Primeiro preciso extrair estas informa��es e armazen�-las em outro banco de dados que eu tenha controle. A ficha de cada pessoas cadastrada vem num c�digo HTML com o nome de todas as IDs de campo e seus valores, alguns s�o strings, outros s�o num�ricos, outros s�o booleanos e dois s�o imagens que eu tamb�m preciso armazenar. Cada cadastro est� numa p�gina com endere�o num�rico, o que facilita correr por todas elas, pq o endere�o � nesse padr�o: http://sitedocadastro.com.br/XXXX/p�gina/, onde o XXXX � um n�mero de 52 a 2654, o resto da url n�o muda.

Ent�o pra correr as p�ginas d� pra fazer um loop e dentro deste loop o c�digo vai identificando cada ID, pegando seu conte�do e inserindo em outra vari�vel que salva no meu BD. S�o mais de 70 campos, todos eles est�o "expostos" no c�digo html.
Exemplo;
<label for="dados_pessoais_cep" class="col-sm-3 control-label">Cep:</label>
<div class="col-md-3">
<input class="form-control" name="dados_pessoais_cep" type="text" value="13315-000" id="dados_pessoais_cep">

Alguns campos s�o op��es do tipo Sim/N�o ou caixa de op��es pr�-definidas.
As imagens, se eu tento abrir s� ela em outra janela, ela abre, ent�o acredito que � poss�vel pegar o url dela e salvar direto no meu HD mas n�o sei como fazer a associa��o no meu banco de dados depois.

Enfim, estou pedindo ajuda de vcs. Por onde come�ar?

Obrigado!

Andr�

Curtir t�pico + 0

Responder

Posts

28/06/2019

William Nascimento

Ol� Andr�, n�o entendi muito bem a sua pergunta, por�m acho que o que voc� est� procurando se chama crawler ou pelo meno se encaixa bem na sua pergunta. No web crawler voc� consegue fazer essa raspagem de dados, basicamente voc� "baixa a p�gina html inteira", ai l� voc� teria que pegar os dados das determinadas p�ginas "baixada" via express�es regulares ( Regex ). Quanto a automatizar essa tarefa se � isso que voc� pretende tamb�m fazer, voc� teria que usar o selenium.

Essa lib � para PHP e � usado para fazer webcrawler:

https://github.com/spatie/crawler

Responder

Gostei + 0

28/06/2019

Andr�

https://github.com/spatie/crawler

Oi William ! Obrigado pelo retorno!

Eu trabalho pra uma ag�ncia e o sistema atual � extremamente mec�nico. S�o dois sistemas na verdade, parte do site est� em Joomla, � onde ficam as informa��es ao p�blico, outra parte � a administrativa, que � um banco de dados que a ag�ncia usa pra salvar tudo sobre cada pessoa e est�o em servers diferentes. O primeiro eu acesso como adm, o Joomla e tamb�m tenho acesso ao host e CPanel, j� o segundo eu s� consigo entrar como adm, n�o tenho acesso ao banco de dados diretamente.

Sendo assim, pra colocar um perfil novo online, eu preciso pegar esses dados no cadastro (este que eu quero puxar) e digitar algumas informa��es dentro de artigos no joomla. Cada artigo do site em Joomla tem um ID e dentro de cada artigo existe um link pra um WidGetKit que � pr�-configurado (m�dulo do Joomla) e que s� serve pra exibir as fotos desta pessoa, mas tem um ID pr�prio tamb�m e tudo tem que estar amarrado Nome->ID_artigo->ID_Widgetkit. Esse controle � feito por uma planilha no excel.
Essas fotos que s�o exibidas via WK(Widgetkit) ficam em pastas dentro de cada categoria, ou seja, eu primeiro subo as fotos na pasta definitiva dentro do servidor, configuro um novo WK pra essa pasta e depois crio um novo artigo linkando esse WK dentro dele. Neste artigo tem um c�digo HTML bem simples onde algumas infos s�o alteradas pra cada perfil.

Tudo seria mais f�cil se ficasse numa base s�, mas peguei a coisa funcionando assim e � assim que est� hoje. Devido as parcerias correntes com essa empresa, eu n�o posso atravessar e substituir tudo, ent�o tento me adaptar � situa��o.

S�o v�rias etapas pra cadastrar um novo perfil e aos poucos eu queria ir automatizando e organizando isso, come�ando pelo principal que � ter o controle dos dados gerais de cada pessoa cadastrada. S�o mais de 2.600 cadastros e seria imposs�vel eu fazer isso um a um.

O pr�ximo passo seria usar um script pra gerar o c�digo html � partir das informa��es obtidas no cadastro da pessoa e j� sair com ele pronto pra colar no artigo, com tudo formatado j� no padr�o.

A situa��o ideal: Uma ferramenta que interaja com o Joomla e crie automaticamente os artigos, os WKs, verifique duplicidade de nomes e outras etapas que aos poucos eu iria implementando.

Quero chegar numa ferramenta pra agilizar todo o processo, me poupar tempo pra outros trabalhos e aprender com isso.

Esta ferramenta seria um site secund�rio ou administrativo onde eu acesso via web e dentro dele tenha as op��es de puxar novos cadastros, gerar o c�digo html do artigo, armazenar o os IDs de ambos (artigo e WK) pra cada pessoa e j� calcular meus ganhos, pois ganho por pessoa que coloco online. Bom, pelo menos seria o primeiro passo, chegar nisso.

N�o sei se deu pra explicar direito a situa��o.

Responder

Gostei + 0