作为使用 python 主题的绝对新手,我在使用报纸库扩展时偶然发现了一些困难。我的目标是定期使用报纸扩展来下载一个名为“tagesschau”的德国新闻网站的所有新文章以及来自 CNN 的所有文章,以构建一个我可以在几年内分析的数据堆栈。如果我做对了,我可以使用以下命令将所有文章下载并抓取到 python 库中。
import newspaper
from newspaper import news_pool
tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')
papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2) # (3*2) = 6 threads total
news_pool.join()`
如果这是下载所有文章的正确方法,那么我如何在 python 之外提取和保存这些文章?或者将这些文章保存在 python 中,以便在我再次重新启动 python 时可以重用它们?
谢谢你的帮助。