python - 如何使用报纸3k重读网站上的新闻

Question

我正在尝试创建一个数据集来对新闻文章进行情绪分析。我正在使用 Newspaper3k 从网站上抓取文章。我抓取了一些网站，但没有正确存储文章，因此我无法使用它们。当我再次尝试抓取相同的网站时，它只会抓取新文章，而不是已经抓取的文章。有没有办法让我把已经刮过的文章刮一遍？？

score 1 · Accepted Answer

默认情况下，报纸会缓存所有以前提取的文章并删除它已经提取的任何文章。

此功能的存在是为了防止重复文章并提高提取速度。

您可以使用参数选择退出此功能memoize_articles。

例如，在您的情况下将其设置为 False：

newspaper.build('http://cbs.com', memoize_articles=False)

1 回答 1