python - Newspaper3k 从 archive.org waybackmachine 页面返回 0 篇文章，而实时页面按预期工作

Question

当尝试在 archive.org 的存档页面 url 上使用 python 库报纸3时，它无法获取任何文章。但是，当在同一个实时页面 url 上使用它时，它可以正常工作。请看下面：

import newspaper

len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111

len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0

即使使用id返回原始修改页面的特殊技巧也不起作用：

len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
    >>> 0

任何帮助将不胜感激，谢谢！

score 1 · Accepted Answer

我发现没有迹象表明这个库是要与archive.org 一起使用的，或者它与archive.org 一起使用的。

两个[1] [2]来源列表均未提及archive.org或web.archive.org。

我下载了整个存储库来搜索源代码，它也没有提到任何一个 Internet 存档域。

从我可以根据这个文件得知，该articles属性基于 RSS/ATOM 提要。我不认为 Internet Archive 会归档这些内容，即使这样做，由于它们会链接回网站的实时版本，因此需要对库本身进行一些更改才能使它们与 Internet Archive 一起使用。

您已经打开了一个问题，您在其中指定它根本不起作用（即使在单篇文章上 - 这可能是其他地方的问题，例如在它用来决定哪些节点包含文章的节点评分算法中）所以如果您不想深入研究库源代码并自己修复它，那么您所能做的就是等待。

python - Newspaper3k 从 archive.org waybackmachine 页面返回 0 篇文章，而实时页面按预期工作

1 回答 1

Related

Reference