我正在完成一项任务,我必须提取文本中名词的一致特征......一致特征如:
number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate
无论如何要从文本中提取这些特征....
我正在完成一项任务,我必须提取文本中名词的一致特征......一致特征如:
number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate
无论如何要从文本中提取这些特征....
如果您的数据是英语,正如您的评论所暗示的那样,那么名词将永远不会包含人信息,因此我们可以打折扣。
正如其他人所提到的,数字很容易:许多词性标注器区分单数和复数名词。
性别和活力更有趣。在英语中,这些是名词的语义而非句法属性。例如,采取句子The princess is in the tower。我们知道公主是女性化的和有生命力的不是因为屈折信息,而是因为我们知道这个词的含义。通过获取大量旧数据并分析其中的代词和照应词来构建本体是可行的。你的算法会寻找这样的例子:
公主看着镜子里的自己。
公主在塔里。她很伤心。
它会(不知何故)证明公主是她自己和她的先行词,并从代词的已知属性中推断出名词的属性。当然,现在问题变成了参考解析,这不是微不足道的。以下是最近爱丁堡大学关于该主题的讲座课程的一些参考资料: