Erro 403 em Python
Bom dia a todos dessa comunidade.
Estou iniciando em python e com um projeto em uma startup para recuperação de dados de Importação e Exportação da Receita Federal. Estou tendo muita dificuldade em conseguir corrigir o erro 403 quando tendo Crawlear uma página.
Recebo como status este codigo: 403
####################################################################################################################################
Quando entro na página ele me traz estas informações
b'<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">\\n<html><head>\\n<title>403 Forbidden</title>\\n</head><body>\\n<h1>Forbidden</h1>\\n<p>You don\\'t have permission to access /siscomexImpweb-7/inicio.html\\non this server.</p>\\n<hr>\\n<address>IBM_HTTP_Server at www1c.siscomex.receita.fazenda.gov.br Port 443</address>\\n</body></html>\\n'
####################################################################################################################################
Fiz uma rotina onde informo uma url de partida e indico o caminho para que ele pegue todos os href dessa página, pegando esse href eu vou acessar outra página ai dá o erro.
Url de partida
'https://www1.siscomex.receita.fazenda.gov.br/siscomexImpweb-7/login_cert.jsp',
Url que dá o erro
'https://www1c.siscomex.receita.fazenda.gov.br/siscomexImpweb-7/inicio.html'
Está página que da o erro, é uma pagina que pega um certificado digital que tenho instalado na minha máquina,para capturar estas informações
Ja tentei com BeautifulSoup
Ja tentei com urllib, urllib2, urllib3
Algumas pessoas me indicarão o Crawlera da Scrapinghub, mas é pago
Cheguei criar um proxy na minha máquina com Cntlm, mas não sei se esta correto
Minha Versão de Python é 3.6.1
Por favor preciso de ajuda, se for o caso vou até a casa,escritório. Preciso de uma solução
Desde já agradeço
Abs
Estou iniciando em python e com um projeto em uma startup para recuperação de dados de Importação e Exportação da Receita Federal. Estou tendo muita dificuldade em conseguir corrigir o erro 403 quando tendo Crawlear uma página.
Recebo como status este codigo: 403
####################################################################################################################################
Quando entro na página ele me traz estas informações
b'<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">\\n<html><head>\\n<title>403 Forbidden</title>\\n</head><body>\\n<h1>Forbidden</h1>\\n<p>You don\\'t have permission to access /siscomexImpweb-7/inicio.html\\non this server.</p>\\n<hr>\\n<address>IBM_HTTP_Server at www1c.siscomex.receita.fazenda.gov.br Port 443</address>\\n</body></html>\\n'
####################################################################################################################################
Fiz uma rotina onde informo uma url de partida e indico o caminho para que ele pegue todos os href dessa página, pegando esse href eu vou acessar outra página ai dá o erro.
Url de partida
'https://www1.siscomex.receita.fazenda.gov.br/siscomexImpweb-7/login_cert.jsp',
Url que dá o erro
'https://www1c.siscomex.receita.fazenda.gov.br/siscomexImpweb-7/inicio.html'
Está página que da o erro, é uma pagina que pega um certificado digital que tenho instalado na minha máquina,para capturar estas informações
Ja tentei com BeautifulSoup
Ja tentei com urllib, urllib2, urllib3
Algumas pessoas me indicarão o Crawlera da Scrapinghub, mas é pago
Cheguei criar um proxy na minha máquina com Cntlm, mas não sei se esta correto
Minha Versão de Python é 3.6.1
Por favor preciso de ajuda, se for o caso vou até a casa,escritório. Preciso de uma solução
Desde já agradeço
Abs
Neivaldo Silva
Curtidas 0