我需要开发一个垂直搜索引擎作为网站的一部分。搜索引擎的数据来自特定类别的网站。我想为此我需要一个爬虫来爬取几个(几百个)网站(在特定的业务类别中)并提取产品和服务的内容和网址。其他类型的页面可能无关紧要。大多数网站很小或很小(最多几百页)。产品有 10 到 30 个属性。
关于如何编写这样的爬虫和提取器的任何想法。我使用常用的 ruby 库编写了一些爬虫和内容提取器,但不是一个成熟的搜索引擎。我想,爬虫有时会醒来并从网站下载页面。当然,将遵循通常的礼貌行为,例如检查机器人排除规则。而内容提取器可以在读取页面后更新数据库。如何同步爬虫和提取器?它们应该集成到何种程度?