2

我是一名正在从事 NLP 暑期项目的学生。我对该领域相当陌生,所以如果有一个非常明显的解决方案,我深表歉意。该项目使用 C 语言,这既是由于我对它的熟悉,也是由于该项目的计算密集型性质(我的语料库是维基百科的明文转储)。

我正在研究一种关系提取方法,利用一致性原则来尝试学习(在某个错误阈值内)一组规则,这些规则指示哪些语法对象集群暗示了这些对象之间的连接。

该算法的第一步之一涉及找到给定单词可以引用的所有可能语法对象的集合(POS消歧由算法在后面的步骤中隐式完成)。我看过几个解析器,但他们似乎都自己做了消歧步骤,这(从我的角度来看)适得其反。我正在寻找现成的东西,(理想情况下)给我一种单一命令的方式来打开这些信息。

这样的事情存在吗?如果没有,是否存在包含这些信息的字典,这些信息很容易被机器解析?

谢谢您的帮助。

4

2 回答 2

0

看看 CMU 狮身人面像。一个开源 NLP 项目。我认为它在 C++ 中,但您可以集成它,或者至少了解如何做事。

于 2012-06-07T20:32:15.850 回答
0

如果您觉得活泼,那么将外部 POS 标记器作为 shell 脚本调用或将其包装在 http 服务中怎么样?

Java 和 Python 拥有绝大多数 NLP 库,因此利用它是有意义的。如果您可以在脚本中使用 NLTK 来标记内容,请从 C 中调用此脚本,这样会更容易。

于 2012-06-12T16:16:53.850 回答