Erro 403 em Python

19/06/2017

0

Bom dia a todos dessa comunidade.

Estou iniciando em python e com um projeto em uma startup para recuperação de dados de Importação e Exportação da Receita Federal. Estou tendo muita dificuldade em conseguir corrigir o erro 403 quando tendo Crawlear uma página.

Recebo como status este codigo: 403

####################################################################################################################################
Quando entro na página ele me traz estas informações

b'<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">\\n<html><head>\\n<title>403 Forbidden</title>\\n</head><body>\\n<h1>Forbidden</h1>\\n<p>You don\\'t have permission to access /siscomexImpweb-7/inicio.html\\non this server.</p>\\n<hr>\\n<address>IBM_HTTP_Server at www1c.siscomex.receita.fazenda.gov.br Port 443</address>\\n</body></html>\\n'

####################################################################################################################################

Fiz uma rotina onde informo uma url de partida e indico o caminho para que ele pegue todos os href dessa página, pegando esse href eu vou acessar outra página ai dá o erro.

Url de partida
'https://www1.siscomex.receita.fazenda.gov.br/siscomexImpweb-7/login_cert.jsp',

Url que dá o erro
'https://www1c.siscomex.receita.fazenda.gov.br/siscomexImpweb-7/inicio.html'

Está página que da o erro, é uma pagina que pega um certificado digital que tenho instalado na minha máquina,para capturar estas informações


Ja tentei com BeautifulSoup
Ja tentei com urllib, urllib2, urllib3

Algumas pessoas me indicarão o Crawlera da Scrapinghub, mas é pago

Cheguei criar um proxy na minha máquina com Cntlm, mas não sei se esta correto

Minha Versão de Python é 3.6.1

Por favor preciso de ajuda, se for o caso vou até a casa,escritório. Preciso de uma solução

Desde já agradeço

Abs
Neivaldo Silva

Neivaldo Silva

Responder

Utilizamos cookies para fornecer uma melhor experiência para nossos usuários, consulte nossa política de privacidade.

Aceitar