在信息提取方面,我是新手。这几天,看了很多学术论文,订了一本关于NLP的书。我想弄清楚如何构建一个类似于 FlipDog.com 的系统(希望不是从头开始)。他们从 60,000 多个公司网站中提取职位空缺。我该如何开始?
我愿意学习任何编程语言。有人用过 Mallet/GATE/MinorThird 或 RoadRunner 吗?理想情况下,我希望能够使用特定于我的领域的数据集训练一个系统,并让它基于此提取信息。为此,您会推荐哪个平台?
谢谢!
在信息提取方面,我是新手。这几天,看了很多学术论文,订了一本关于NLP的书。我想弄清楚如何构建一个类似于 FlipDog.com 的系统(希望不是从头开始)。他们从 60,000 多个公司网站中提取职位空缺。我该如何开始?
我愿意学习任何编程语言。有人用过 Mallet/GATE/MinorThird 或 RoadRunner 吗?理想情况下,我希望能够使用特定于我的领域的数据集训练一个系统,并让它基于此提取信息。为此,您会推荐哪个平台?
谢谢!
提取工作机会的更快方法是使用dapper.net(来自网站的网络抓取服务)。您可以非常轻松地教 dapper 使用可视化编辑器提取数据。当您的目标网站上有表格时,它非常有效。
要学习信息提取,我建议从lingpipe开始。它是一个用于信息提取的 java 框架,因此您无需学习该框架的架构特定功能,例如 Gate 或 Apache UIMA。在 lingpipe 网站上,您会找到很多教程,这些教程将帮助您学习各种信息提取方法。之后我建议学习 Gate 和 UIMA。
如果要实现这样的网站,还需要学习如何使用网络爬虫框架(如nutch)、网络搜索引擎(yahoo、google、bing)和信息检索引擎(如apache lucene)来提供提取数据顶部的搜索服务。
更新:
对于python,最好从:http ://www.nltk.org/