当尝试在 archive.org 的存档页面 url 上使用 python 库报纸3时,它无法获取任何文章。但是,当在同一个实时页面 url 上使用它时,它可以正常工作。请看下面:
import newspaper
len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111
len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0
即使使用id
返回原始修改页面的特殊技巧也不起作用:
len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
>>> 0
任何帮助将不胜感激,谢谢!