我需要开发一个从整个网络上抓取产品数据(价格、标题等)的抓取工具。现在,我确实有抓取经验,但那是针对单个网站的。我不确定如何抓取整个网络。一种可能的解决方案是查询 google,然后从 google 中出现的链接中抓取每个网站。这是好方法吗?
我只需要一个关于如何解决这个问题的通用方法,因为在我看来,每个站点可能都有自己的数据表示方式。我如何整合所有这些变化?任何指南/提示?
我需要开发一个从整个网络上抓取产品数据(价格、标题等)的抓取工具。现在,我确实有抓取经验,但那是针对单个网站的。我不确定如何抓取整个网络。一种可能的解决方案是查询 google,然后从 google 中出现的链接中抓取每个网站。这是好方法吗?
我只需要一个关于如何解决这个问题的通用方法,因为在我看来,每个站点可能都有自己的数据表示方式。我如何整合所有这些变化?任何指南/提示?
谷歌有一个内置的多网站价格比较功能见:http ://www.google.co.uk/shopping
您可以尝试使用谷歌自己的自定义搜索 API 或 curl 来查询该资源,尽管 API 可能是一个更好的选择,因为 google 非常难以抓取,并且如果它认为正在使用 curl 脚本或类似脚本,可能会锁定 IP。如果手动为多个站点编码的想法让您感到恐惧,那么另一种方法是从其他人的比较站点中提取数据。
定义您所说的内容的术语是网络爬虫。你看过维基百科的文章吗?