我有一个关于从网站上抓取内容的问题。让我们想象在这个例子中,我们谈论的是分类风格网站上的内容,例如亚马逊或 Ebay。关于此内容的重要说明是它可以更改并且可以删除。
我看到它的方式有两个选择:
每天一次完整的新鲜刮擦。我从一个空白的数据库架构开始新的一天,每天完全重新抓取每个站点并将内容插入到新的数据库中。
增量抓取,我从昨天抓取的内容开始,在重新抓取网站时,我执行以下操作:
Check existing URL Content is still online and is it the same - Leave in DB Content is not availiable - Delete from DB Content is different - Rescrape content
我的问题是,进行增量抓取所增加的复杂性是否真的值得,这样做有什么好处吗?我真的很喜欢每天进行一次新的抓取的简单性,但这是我的第一个抓取项目,我真的很想知道抓取专家在这种情况下会做什么。