java - 从文本中提取协议特征

Question

我正在完成一项任务，我必须提取文本中名词的一致特征......一致特征如：

number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate

无论如何要从文本中提取这些特征....

score 2 · Accepted Answer

如果您的数据是英语，正如您的评论所暗示的那样，那么名词将永远不会包含人信息，因此我们可以打折扣。

正如其他人所提到的，数字很容易：许多词性标注器区分单数和复数名词。

性别和活力更有趣。在英语中，这些是名词的语义而非句法属性。例如，采取句子The princess is in the tower。我们知道公主是女性化的和有生命力的不是因为屈折信息，而是因为我们知道这个词的含义。通过获取大量旧数据并分析其中的代词和照应词来构建本体是可行的。你的算法会寻找这样的例子：

公主看着镜子里的自己。

公主在塔里。她很伤心。

它会（不知何故）证明公主是她自己和她的先行词，并从代词的已知属性中推断出名词的属性。当然，现在问题变成了参考解析，这不是微不足道的。以下是最近爱丁堡大学关于该主题的讲座课程的一些参考资料：

Denis, Pascal 和 Baldridge, Jason, 2008。“共指解析的专用模型和重新排序”。在自然语言处理经验方法会议论文集中。ACL，650-69。
Haghighi, Aria 和 Klein, Dan, 2010。“模块化、以实体为中心的模型中的共指解析”。在人类语言技术中：计算语言学协会北美分会 2010 年年会。加利福尼亚州洛杉矶，385-93。
Lappin，Shalom 和 Leass，Herbert，1994 年。“代词照应解析算法”。计算语言学二十：535-61。
Ng, Vincent, 2010。“监督名词短语共指研究：前 15 年”。在ACL '10：计算语言学协会第 48 次会议论文集。1396-411。

java - 从文本中提取协议特征

1 回答 1

Related

Reference