0

我正在编写一个网络爬虫,它使用 diffbot api 提取已清理的新闻文章文本和元数据。如果自上次提取后修改了文章的来源,它还会记录文章标题和文本更改。我需要一些自动的方法来区分已删除和更改的文章:新闻门户网站大多不会返回 404 或其他错误代码,以防帖子被删除,它们通常会发送 200 和带有标题的页面,例如“对不起,您正在寻找的文章去掉了”。因此,我需要一种工具或方法来检测这种情况,最好是用 Python 编写的东西或使用 Web API 的东西。我完全感到困惑,甚至不知道从哪里开始,所以任何合理的建议都受到广泛赞赏。

4

1 回答 1

0

你可以:

  • 设置文章的最小长度以期望任何短文本并将其视为已删除的文本
  • 比较同一 URL 的两篇文章的 Diffbot URI(唯一字符串),以发现它们的正文发生了变化

这两个串联应该为您提供您所寻求的差异化能力。

于 2021-08-13T22:57:18.173 回答