0

对于一个新的科技创业企业,我们想建立一个所谓的“社交爬虫”。通过这款软件,我们希望让客户能够搜索潜在员工。结果(例如,当搜索“iOS 开发者”时)应该是基于个人简介和其他相关公共信息的来自抓取来源(例如:twitter、linkedin 等)的聚合社交资料。

以下是我认为该过程应该如何工作:

  1. 抓取 Twitter、Linkedin 等网站。
  2. 处理和匹配文档数据
  3. 索引汇总配置文件
  4. 通过搜索服务器访问索引信息

设置应该是一个持续的聚合器,允许数据库自动增长。开发这些设置超出了我目前的知识范围。我想知道从哪里开始或与谁交谈,甚至谁可以为我们开发这个。

我确实偶然发现了Crawl Anywhere。这对我们有用吗?我很好奇你的想法是什么!

干杯!

4

2 回答 2

1

可以从带有Solr 的 Nutch开始,这将帮助您对数据进行爬网和索引。
然后数据可用,可用于搜索以及进一步处理。

于 2013-05-22T10:52:02.667 回答
1

此外,要抓取 Twitter 数据,您应该使用 Twitter API。据我所知,当前版本的 Nutch 不支持抓取 Twitter 数据。

干杯!

于 2013-09-09T13:49:21.633 回答