Dicas: Extraindo Tags HTML

Extraindo tags de arquivos HTML

Como poderíamos extrair informação HTML Tag tais como Links/Images/Frames, contidas em uma determinada página?

Extrair informação tag do HTML sempre foi uma coisa complicada de fazer, pois teremos que prever a maioria dos erros, texto quebrado ou erros do código. Sempre procuramos uma função precisa e correta para extrair links de páginas HTML, mas todas as que achamos, tinham suas desvantagens com relação a linhas quebradas ou espaços mal colocados ou até mesmo de lentidão.

Assim, como a maioria dos programadores diz, depois de uma longa procura decidimos escrever NOSSA PRÓPRIA função para controlar tudo do melhor modo possível, esperando desta maneira, por um fim para todas essas funções bobas ou mal escritas que dizem que fazem o trabalho do melhor modo.

Por favor, repare que a função que estamos propondo poderá não ser a mais rápida, mas certamente funciona da melhor forma e pode inclusive ser expandida para no futuro extrair mais informação.

Eis aqui a função. Inserimos alguns comentários, e não nos aprofundamos a respeito de como a mesma trabalha, pois foi escrita de uma maneira simples, de forma que mesmo um iniciante poderá entendê-la e expandi-la para seu próprio uso:

function ExtractHtmlTagValues(const HtmlText: string; TagName, AttribName: string;

var Values: TStrings): integer;

function FindFirstCharAfterSpace(const Line: string; StartPos: integer): Integer;

var

i: integer;

begin

Result := -1;

for i := StartPos to Length(Line) do

begin

if (Line[i] <> ' ') then

begin

Result := i;

exit;

end;

function FindFirstSpaceAfterChars(const Line: string; StartPos: integer): Integer;

begin

Result := PosEx(' ', Line, StartPos);

end;

function FindFirstSpaceBeforeChars(const Line: string; StartPos: integer): Integer;

var

i: integer;

begin

Result := 1;

for i := StartPos downto 1 do

begin

if (Line[i] = ' ') then

begin

Result := i;

exit;

end;

var

InnerTag: string;

LastPos, LastInnerPos: Integer;

SPos, LPos, RPos: Integer;

AttribValue: string;

ClosingChar: char;

TempAttribName: string;

begin

Result := 0;

LastPos := 1;

while (true) do

begin

{ achar outer tags '<' & '>' }

LPos := PosEx('<', HtmlText, LastPos);

if (LPos <= 0) then

break;

RPos := PosEx('>', HtmlText, LPos+1);

if (RPos <= 0) then

LastPos := LPos + 1

else

LastPos := RPos + 1;

{ obter inner tag }

InnerTag := Copy(HtmlText, LPos+1, RPos-LPos-1);

InnerTag := Trim(InnerTag); // remove spaces

if (Length(InnerTag) < Length(TagName)) then

Continue;

{ verificar os tag name }

if (SameText(Copy(InnerTag, 1, Length(TagName)), TagName)) then

begin

{ tag achada }

AttribValue := '';

LastInnerPos := Length(TagName)+1;

while (LastInnerPos < Length(InnerTag)) do

begin

{ achar primeiro '=' after LastInnerPos }

RPos := PosEx('=', InnerTag, LastInnerPos);

if (RPos <= 0) then

break;

{ Deste modo, podemos verificar a existência de nomes de atributos múltiplos e não um atributo especifico }

SPos := FindFirstSpaceBeforeChars(InnerTag, RPos);

TempAttribName := Trim(Copy(InnerTag, SPos, RPos-SPos));

if (true) then

begin

{ achar a tag correta }

LPos := FindFirstCharAfterSpace(InnerTag, RPos+1);

if (LPos <= 0) then

begin

LastInnerPos := RPos + 1;

continue;

end;

LPos := FindFirstCharAfterSpace(InnerTag, LPos);

if (LPos <= 0) then

Continue;

if ((InnerTag[LPos] <> '"') and (InnerTag[LPos] <> '''')) then

begin

{ AttribValue não esta delimitado por '"' ou ''' portanto obte-lo }

RPos := FindFirstSpaceAfterChars(InnerTag, LPos+1);

if (RPos <= 0) then

AttribValue := Copy(InnerTag, LPos, Length(InnerTag)-LPos+1)

else

AttribValue := Copy(InnerTag, LPos, RPos-LPos+1);

end

else

begin

{ obter url delimitada por '"' ou ''' }

ClosingChar := InnerTag[LPos];

RPos := PosEx(ClosingChar, InnerTag, LPos+1);

if (RPos <= 0) then

AttribValue := Copy(InnerTag, LPos+1, Length(InnerTag)-LPos-1)

else

AttribValue := Copy(InnerTag, LPos+1, RPos-LPos-1)

end;

if (SameText(TempAttribName, AttribName)) and (AttribValue <> '') then

begin

Values.Add(AttribValue);

inc(Result);

end;

if (RPos <= 0) then

LastInnerPos := Length(InnerTag)

else

LastInnerPos := RPos+1;

end;

Por exemplo, se quisermos extrair todos os links contidos em uma página, é só fazer o seguinte:

var

Links: TStrings;

Html: TStrings;

begin

Links := TStringList.Create;

Html := TStringList.Create;
Html.LoadFromFile('arquivo.htm');

try

LinksFound := ExtractHtmlTagValues(Html.Text, 'A', 'HREF', Links);

Memo1.Lines := Links;

finally

Links.Free;

end;

Confira outros conteúdos:

Por Tipster Em 2005

Faça a sua matrícula

Assinatura DevMedia

de: R$ 79,00

por: R$ 64,90 /mês

Total: R$ 778,80

Garanta o desconto

Formação FullStack Completa
Aprenda Automações e IA para Devs
Módulo como ganhar dinheiro com Tech
+10.000 exercícios gamificados
+50 projetos reais com acompanhamento
Clube de alunos e professores no WhatsApp
Mentorias online em grupo toda semana
Estude pelo Aplicativo (Android e iOS)
Suporte 24h / 7 dias por semana
Biblioteca com +40 Tecnologias
Fidelidade de 12 meses

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouquíssimas coisas de programação antes de começar a estudar com vocês, fui me especializando em várias áreas e ferramentas que tinham na plataforma, e com essa bagagem consegui um estágio logo no início do meu primeiro período na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse período a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta é continuar estudando e praticando para ser um Full-Stack Dev!

Heráclito Júnior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma é bem intuitiva e muuuuito didática a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda não tinha visto. A didática é do jeito que qualquer pessoa consegue aprender. Sério, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de vocês e logo percebi que são os melhores do Brasil. É um passo a passo incrível. Só não aprende quem não quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que já fiz na vida e tenho aprendido bastante com a plataforma. Vocês estão fazendo parte da minha jornada nesse mundo da programação, irei assinar meu contrato como programador graças a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exercícios práticos que não tem como não aprender, estão de parabéns!

José Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino tão presente na vida acadêmica de seus alunos, parabéns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia há cerca de 1 ano e meio... Hoje estou há 1 ano empregado trabalhando 100% com React!

Adauto Junior

Já fiz alguns cursos na área e nenhum é tão bom quanto o de vocês. Estou aprendendo muito, muito obrigado por existirem. Estão de parabéns... Espero um dia conseguir um emprego na área.

Ver todos os casos de sucesso

Dicas - Extraindo tags HTML

Veja nesta dica, como criar código para extrair tags de arquivos HTML.

Confira outros conteúdos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para começar a atuar como programador?

Por que a programação se tornou a profissão mais promissora da atualidade?

Quais são os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programação através da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem horário para as aulas?

Por que a DevMedia não usa videoaulas em sua didática?

Preciso de um computador específico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais são os planos de assinatura disponíveis?

Adquirindo o plano, terei acesso a todo o conteúdo?

A plataforma tem planos vitalícios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

A renovação é automática?

Como excluir meus dados da plataforma?