我是一名正在从事 NLP 暑期项目的学生。我对该领域相当陌生,所以如果有一个非常明显的解决方案,我深表歉意。该项目使用 C 语言,这既是由于我对它的熟悉,也是由于该项目的计算密集型性质(我的语料库是维基百科的明文转储)。
我正在研究一种关系提取方法,利用一致性原则来尝试学习(在某个错误阈值内)一组规则,这些规则指示哪些语法对象集群暗示了这些对象之间的连接。
该算法的第一步之一涉及找到给定单词可以引用的所有可能语法对象的集合(POS消歧由算法在后面的步骤中隐式完成)。我看过几个解析器,但他们似乎都自己做了消歧步骤,这(从我的角度来看)适得其反。我正在寻找现成的东西,(理想情况下)给我一种单一命令的方式来打开这些信息。
这样的事情存在吗?如果没有,是否存在包含这些信息的字典,这些信息很容易被机器解析?
谢谢您的帮助。