我正在尝试从 .html 文件中读取内容(为方便起见,此处指定了 URL)[1]。但有时它不显示任何文本。请帮我解决这个问题。
使用的 Goose 版本:https ://github.com/agolo/python-goose/ 当前版本给出了一些错误。
from goose import Goose
from requests import get
response = get('http://www.highbeam.com/doc/1P3-979471971.html')
extractor = Goose()
article = extractor.extract(raw_html=response.content)
text = article.cleaned_text
print text