我正在使用 Anaconda3,安装报纸。看起来很简单,但结果却不一致。
http://newspaper.readthedocs.io/en/latest/
import newspaper
cnn_paper = newspaper.build('http://www.cnn.com')
for article in cnn_paper.articles:
print(article.url)
print(cnn_paper.size())
这段简单的代码有时会返回所有结果,有时则不返回任何结果。
有人用过这个库或知道更好的库来抓取新闻网站吗?我宁愿不必自己编写解析器,但如果归根结底,我应该使用什么?