Erro 403 em Python

19/06/2017

Bom dia a todos dessa comunidade.

Estou iniciando em python e com um projeto em uma startup para recupera��o de dados de Importa��o e Exporta��o da Receita Federal. Estou tendo muita dificuldade em conseguir corrigir o erro 403 quando tendo Crawlear uma p�gina.

Recebo como status este codigo: 403

####################################################################################################################################
Quando entro na p�gina ele me traz estas informa��es

b'<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">\\n<html><head>\\n<title>403 Forbidden</title>\\n</head><body>\\n<h1>Forbidden</h1>\\n<p>You don\\'t have permission to access /siscomexImpweb-7/inicio.html\\non this server.</p>\\n<hr>\\n<address>IBM_HTTP_Server at www1c.siscomex.receita.fazenda.gov.br Port 443</address>\\n</body></html>\\n'

####################################################################################################################################

Fiz uma rotina onde informo uma url de partida e indico o caminho para que ele pegue todos os href dessa p�gina, pegando esse href eu vou acessar outra p�gina ai d� o erro.

Url de partida
'https://www1.siscomex.receita.fazenda.gov.br/siscomexImpweb-7/login_cert.jsp',

Url que d� o erro
'https://www1c.siscomex.receita.fazenda.gov.br/siscomexImpweb-7/inicio.html'

Est� p�gina que da o erro, � uma pagina que pega um certificado digital que tenho instalado na minha m�quina,para capturar estas informa��es

Ja tentei com BeautifulSoup
Ja tentei com urllib, urllib2, urllib3

Algumas pessoas me indicar�o o Crawlera da Scrapinghub, mas � pago

Cheguei criar um proxy na minha m�quina com Cntlm, mas n�o sei se esta correto

Minha Vers�o de Python � 3.6.1

Por favor preciso de ajuda, se for o caso vou at� a casa,escrit�rio. Preciso de uma solu��o

Desde j� agrade�o

Abs

Neivaldo Silva

Curtir t�pico + 0

Responder