我正在编写一个网络爬虫,它使用 diffbot api 提取已清理的新闻文章文本和元数据。如果自上次提取后修改了文章的来源,它还会记录文章标题和文本更改。我需要一些自动的方法来区分已删除和更改的文章:新闻门户网站大多不会返回 404 或其他错误代码,以防帖子被删除,它们通常会发送 200 和带有标题的页面,例如“对不起,您正在寻找的文章去掉了”。因此,我需要一种工具或方法来检测这种情况,最好是用 Python 编写的东西或使用 Web API 的东西。我完全感到困惑,甚至不知道从哪里开始,所以任何合理的建议都受到广泛赞赏。