0

我正在使用 Anaconda3,安装报纸。看起来很简单,但结果却不一致。

http://newspaper.readthedocs.io/en/latest/

import newspaper
cnn_paper = newspaper.build('http://www.cnn.com')
for article in cnn_paper.articles:
    print(article.url)
print(cnn_paper.size())

这段简单的代码有时会返回所有结果,有时则不返回任何结果。

有人用过这个库或知道更好的库来抓取新闻网站吗?我宁愿不必自己编写解析器,但如果归根结底,我应该使用什么?

4

1 回答 1

1

找到了修复

https://github.com/codelucas/newspaper/issues/243

cnn_paper = newspaper.build('http://cnn.com', memoize_articles=False)
于 2017-12-16T02:58:08.240 回答