6

我有一堆描述疾病的文本文件。这些文件在大多数情况下都很短,而且通常只包含一个句子。这里给出一个例子:

原发性肺动脉高压是一种进行性疾病,其中最小的肺动脉广泛闭塞导致肺血管阻力增加,随后导致右心室衰竭。

我需要的是一个工具,它可以在句子中找到所有疾病术语(例如,在这种情况下为“肺动脉高压”)并将它们映射到像MeSH这样的受控词汇表。

提前感谢您的回答!

4

5 回答 5

6

以下是专门为医学文档解析设计的两个管道:

两者都使用统一医学语言系统 UMLS,因此要求您拥有(免费)许可证。两者都是 Java 并且或多或少易于设置。

于 2013-05-14T03:08:17.467 回答
2

http://www.ebi.ac.uk/webservices/whatizit/info.jsf

Whatizit 是一个文本处理系统,可让您对文本进行文本挖掘任务。任务由上述窗口下拉列表中的管道定义,文本可以粘贴到文本区域。

您也可以询问 biostars: http: //www.biostars.org/show/questions/

于 2012-09-25T14:56:00.233 回答
2

有很多工具可以做到这一点。一些流行的:

它们中的大多数都带有一些预定义的模型,即它们已经在一些通用数据集(新闻文章等)上接受过训练。但是,您的文本非常具体,因此您可能希望首先构建一个语料库并重新训练其中一个工具,以便根据您的数据进行调整。

更简单地说,作为第一个测试,您可以尝试基于字典的方法:设计一个实体名称列表,并执行一些精确或近似匹配。例如,LingPipe 的教程中描述了这个操作。

于 2013-05-04T20:34:29.100 回答
0

一个 bash 脚本,其中包含从疾病本体生成的词典作为示例: https ://github.com/lasigeBioTM/MER

于 2018-04-28T16:25:13.297 回答
0

Open Targets一个模块作为LINK的一部分。它不打算直接使用,因此可能需要一些黑客和修补,但它是我为 python 找到的最完整的医学 NER(命名实体识别)工具。有关更多信息,请阅读他们的博客文章

于 2018-04-06T08:37:17.700 回答