annotations - 半自动注释工具 - 如何找到 RDF 三元组

Question

我正在为医学文本开发一个半自动注释工具，我完全迷失在寻找用于注释的 RDF 三元组。

我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP，它们都没有用于提取疾病名称的模型。

我的问题是：* 如何创建一个新的 NER 模型来提取疾病名称？我可以从 OpenNLP 或 Standford NER 那里获得任何帮助吗？* 除了 NLP 之外，还有另一种方法可以从文本中提取 RDF 三元组吗？

任何帮助，将不胜感激！谢谢。

score 4 · Accepted Answer

我用 OpenNLP 和 LingPipe 做了一些类似于你需要的东西。我发现 LingPipe 的基于字典的精确分块足以满足我的用例并使用它。此处提供的文档：http: //alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

你可以在这里找到一个小演示：

如果地名词典/字典方法对您来说不够好，您可以尝试创建自己的模型，OpenNLP 也有用于训练模型的 API。文档在这里： http: //opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

从自然语言中提取 RDF 三元组是与识别命名实体不同的问题。NER 是一个相关的，也许是必要的步骤，但还不够。要从自然语言中提取 RDF 语句，您不仅需要识别语句的主语和宾语等实体。但是您还需要识别这些实体的动词和/或关系，还需要将它们映射到 URI。

1 回答 1