python - requests-HTML 编码错误

Question

大家好，

当我运行此代码时：

from requests_html import HTMLSession

url = 'http://www.spell.org.br/documentos/resultadobusca/?eou%5B%5D=&tipo_busca=simples&campo%5B%5D=RESUMO&texto%5B%5D='\
  + parsekeyword(keyword) +\
  '&eou%5B%5D=E&campo%5B%5D=TITULO&texto%5B%5D=&eou%5B%5D=E&campo%5B%5D=TITULO&texto%5B%5D=&mes_inicio=&ano_inicio=&mes_fim=&ano_fim=&qtd_reg_pagina=20&pagina=2'

session = HTMLSession()
link = session.get(url)

linkslist = list(link.html.absolute_links)

我收到此错误消息：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 91835: invalid continuation byte

我认为这是因为某些链接中的非 utf-8 字符。

由于它发生在方法内部，有没有办法处理这个问题？

我是一个初学者，如果我错过了一些明显的东西，我很抱歉。

score 1 · Accepted Answer

在 python3 和请求中，你可以使用response.content.decode('utf-8')，response变量 mean 是你的link变量

score 0 · Accepted Answer

我有同样的问题。我运行了以下命令，它解决了问题。

pip uninstall requests-html
pip install requests-html

python - requests-HTML 编码错误

2 回答 2

Related

Reference