4

报纸是一个很棒的库,它允许抓取网络数据,但是我对文章缓存有点困惑。它缓存文章以加快操作,但我如何访问这些文章?

我有这样的东西。现在,当我使用同一组文章两次运行此命令时,我None第二次获得了返回类型。如何访问那些以前缓存的文章进行处理?

newspaper_articles = [Article(url) for url in links]

4

2 回答 2

1

看看这个:https ://github.com/codelucas/newspaper/issues/481似乎 https://github.com/codelucas/newspaper/blob/master/newspaper/utils.py 中的缓存方法 'cache_disk '可能有一个错误。它确实将结果缓存到磁盘(搜索文件夹'.newspaper_scraper'),但之后不会加载它们。

一种解决方法是在构建报纸或使用 Config 类时设置 memoize_articles=False。

newspaper.build(url, memoize_articles=False)
于 2018-08-10T13:52:20.550 回答
0

从源代码检查后,这取决于。

https://github.com/codelucas/newspaper/blob/beacce0e167349374ce0b37012b01c7c07a26890/newspaper/settings.py#L35

DATA_DIRECTORY = '.newspaper_scraper'

TOP_DIRECTORY = os.path.join(tempfile.gettempdir(), DATA_DIRECTORY)

所以在你的python解释器中运行它来获取缓存的位置

import tempfile
tempfile.gettempdir()
于 2019-10-21T15:43:49.803 回答