web-scraping - 从整个网络抓取数据

Question

我需要开发一个从整个网络上抓取产品数据（价格、标题等）的抓取工具。现在，我确实有抓取经验，但那是针对单个网站的。我不确定如何抓取整个网络。一种可能的解决方案是查询 google，然后从 google 中出现的链接中抓取每个网站。这是好方法吗？

我只需要一个关于如何解决这个问题的通用方法，因为在我看来，每个站点可能都有自己的数据表示方式。我如何整合所有这些变化？任何指南/提示？

score 1 · Accepted Answer

谷歌有一个内置的多网站价格比较功能见：http ://www.google.co.uk/shopping

您可以尝试使用谷歌自己的自定义搜索 API 或 curl 来查询该资源，尽管 API 可能是一个更好的选择，因为 google 非常难以抓取，并且如果它认为正在使用 curl 脚本或类似脚本，可能会锁定 IP。如果手动为多个站点编码的想法让您感到恐惧，那么另一种方法是从其他人的比较站点中提取数据。

score 1 · Accepted Answer

定义您所说的内容的术语是网络爬虫。你看过维基百科的文章吗？

2 回答 2