6

我正在为医学文本开发一个半自动注释工具,我完全迷失在寻找用于注释的 RDF 三元组。

我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP,它们都没有用于提取疾病名称的模型。

我的问题是:* 如何创建一个新的 NER 模型来提取疾病名称?我可以从 OpenNLP 或 Standford NER 那里获得任何帮助吗?* 除了 NLP 之外,还有另一种方法可以从文本中提取 RDF 三元组吗?

任何帮助,将不胜感激!谢谢。

4

1 回答 1

4

我用 OpenNLP 和 LingPipe 做了一些类似于你需要的东西。我发现 LingPipe 的基于字典的精确分块足以满足我的用例并使用它。此处提供的文档:http: //alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

你可以在这里找到一个小演示:

如果地名词典/字典方法对您来说不够好,您可以尝试创建自己的模型,OpenNLP 也有用于训练模型的 API。文档在这里: http: //opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

从自然语言中提取 RDF 三元组是与识别命名实体不同的问题。NER 是一个相关的,也许是必要的步骤,但还不够。要从自然语言中提取 RDF 语句,您不仅需要识别语句的主语和宾语等实体。但是您还需要识别这些实体的动词和/或关系,还需要将它们映射到 URI。

于 2012-04-29T14:53:06.473 回答