search - 如何抓取、处理和索引社交媒体资料？

Question

对于一个新的科技创业企业，我们想建立一个所谓的“社交爬虫”。通过这款软件，我们希望让客户能够搜索潜在员工。结果（例如，当搜索“iOS 开发者”时）应该是基于个人简介和其他相关公共信息的来自抓取来源（例如：twitter、linkedin 等）的聚合社交资料。

以下是我认为该过程应该如何工作：

设置应该是一个持续的聚合器，允许数据库自动增长。开发这些设置超出了我目前的知识范围。我想知道从哪里开始或与谁交谈，甚至谁可以为我们开发这个。

我确实偶然发现了Crawl Anywhere。这对我们有用吗？我很好奇你的想法是什么！

干杯!

score 1 · Accepted Answer

可以从带有Solr 的 Nutch开始，这将帮助您对数据进行爬网和索引。
然后数据可用，可用于搜索以及进一步处理。

score 1 · Accepted Answer

此外，要抓取 Twitter 数据，您应该使用 Twitter API。据我所知，当前版本的 Nutch 不支持抓取 Twitter 数据。

干杯!

2 回答 2