nlp - 如何开始信息提取？

Question

在信息提取方面，我是新手。这几天，看了很多学术论文，订了一本关于NLP的书。我想弄清楚如何构建一个类似于 FlipDog.com 的系统（希望不是从头开始）。他们从 60,000 多个公司网站中提取职位空缺。我该如何开始？

我愿意学习任何编程语言。有人用过 Mallet/GATE/MinorThird 或 RoadRunner 吗？理想情况下，我希望能够使用特定于我的领域的数据集训练一个系统，并让它基于此提取信息。为此，您会推荐哪个平台？

谢谢！

score 3 · Accepted Answer

提取工作机会的更快方法是使用dapper.net（来自网站的网络抓取服务）。您可以非常轻松地教 dapper 使用可视化编辑器提取数据。当您的目标网站上有表格时，它非常有效。

要学习信息提取，我建议从lingpipe开始。它是一个用于信息提取的 java 框架，因此您无需学习该框架的架构特定功能，例如 Gate 或 Apache UIMA。在 lingpipe 网站上，您会找到很多教程，这些教程将帮助您学习各种信息提取方法。之后我建议学习 Gate 和 UIMA。

如果要实现这样的网站，还需要学习如何使用网络爬虫框架（如nutch）、网络搜索引擎（yahoo、google、bing）和信息检索引擎（如apache lucene）来提供提取数据顶部的搜索服务。

更新：

对于python，最好从：http ://www.nltk.org/

1 回答 1