对于一个新的科技创业企业,我们想建立一个所谓的“社交爬虫”。通过这款软件,我们希望让客户能够搜索潜在员工。结果(例如,当搜索“iOS 开发者”时)应该是基于个人简介和其他相关公共信息的来自抓取来源(例如:twitter、linkedin 等)的聚合社交资料。
以下是我认为该过程应该如何工作:
- 抓取 Twitter、Linkedin 等网站。
- 处理和匹配文档数据
- 索引汇总配置文件
- 通过搜索服务器访问索引信息
设置应该是一个持续的聚合器,允许数据库自动增长。开发这些设置超出了我目前的知识范围。我想知道从哪里开始或与谁交谈,甚至谁可以为我们开发这个。
我确实偶然发现了Crawl Anywhere。这对我们有用吗?我很好奇你的想法是什么!
干杯!