假设我想从许多来源(可能是旅行、技术或其他)汇总与特定利基相关的信息。我该怎么做?
有一个蜘蛛/爬虫会爬网以找到我需要的信息(我如何告诉爬虫爬什么,因为我不想获取整个网络?)?然后有一个索引系统来索引和组织我爬取的信息,同时也是一个搜索引擎?
像 Nutch lucene.apache.org/nutch 这样的系统可以用于我想要的吗?你推荐别的东西吗?
或者你能推荐另一种方法吗?
例如,Techmeme.com 是如何建立的?(它是技术新闻的聚合器,并且是完全自动化的——直到最近他们才增加了一些人工干预)。建立这样的服务需要什么?
或者 Kayak.com 如何汇总他们的数据?(这是一个旅游聚合服务。)