machine-learning - 疾病命名实体识别

Question

我有一堆描述疾病的文本文件。这些文件在大多数情况下都很短，而且通常只包含一个句子。这里给出一个例子：

原发性肺动脉高压是一种进行性疾病，其中最小的肺动脉广泛闭塞导致肺血管阻力增加，随后导致右心室衰竭。

我需要的是一个工具，它可以在句子中找到所有疾病术语（例如，在这种情况下为“肺动脉高压”）并将它们映射到像MeSH这样的受控词汇表。

提前感谢您的回答！

score 6 · Accepted Answer

以下是专门为医学文档解析设计的两个管道：

两者都使用统一医学语言系统 UMLS，因此要求您拥有（免费）许可证。两者都是 Java 并且或多或少易于设置。

score 2 · Accepted Answer

Whatizit 是一个文本处理系统，可让您对文本进行文本挖掘任务。任务由上述窗口下拉列表中的管道定义，文本可以粘贴到文本区域。

您也可以询问 biostars： http: //www.biostars.org/show/questions/

score 2 · Accepted Answer

有很多工具可以做到这一点。一些流行的：

它们中的大多数都带有一些预定义的模型，即它们已经在一些通用数据集（新闻文章等）上接受过训练。但是，您的文本非常具体，因此您可能希望首先构建一个语料库并重新训练其中一个工具，以便根据您的数据进行调整。

更简单地说，作为第一个测试，您可以尝试基于字典的方法：设计一个实体名称列表，并执行一些精确或近似匹配。例如，LingPipe 的教程中描述了这个操作。

score 0 · Accepted Answer

一个 bash 脚本，其中包含从疾病本体生成的词典作为示例： https ://github.com/lasigeBioTM/MER

score 0 · Accepted Answer

Open Targets有一个模块作为LINK的一部分。它不打算直接使用，因此可能需要一些黑客和修补，但它是我为 python 找到的最完整的医学 NER（命名实体识别）工具。有关更多信息，请阅读他们的博客文章。

5 回答 5