我有一堆描述疾病的文本文件。这些文件在大多数情况下都很短,而且通常只包含一个句子。这里给出一个例子:
原发性肺动脉高压是一种进行性疾病,其中最小的肺动脉广泛闭塞导致肺血管阻力增加,随后导致右心室衰竭。
我需要的是一个工具,它可以在句子中找到所有疾病术语(例如,在这种情况下为“肺动脉高压”)并将它们映射到像MeSH这样的受控词汇表。
提前感谢您的回答!
我有一堆描述疾病的文本文件。这些文件在大多数情况下都很短,而且通常只包含一个句子。这里给出一个例子:
原发性肺动脉高压是一种进行性疾病,其中最小的肺动脉广泛闭塞导致肺血管阻力增加,随后导致右心室衰竭。
我需要的是一个工具,它可以在句子中找到所有疾病术语(例如,在这种情况下为“肺动脉高压”)并将它们映射到像MeSH这样的受控词汇表。
提前感谢您的回答!
见http://www.ebi.ac.uk/webservices/whatizit/info.jsf
Whatizit 是一个文本处理系统,可让您对文本进行文本挖掘任务。任务由上述窗口下拉列表中的管道定义,文本可以粘贴到文本区域。
您也可以询问 biostars: http: //www.biostars.org/show/questions/
有很多工具可以做到这一点。一些流行的:
它们中的大多数都带有一些预定义的模型,即它们已经在一些通用数据集(新闻文章等)上接受过训练。但是,您的文本非常具体,因此您可能希望首先构建一个语料库并重新训练其中一个工具,以便根据您的数据进行调整。
更简单地说,作为第一个测试,您可以尝试基于字典的方法:设计一个实体名称列表,并执行一些精确或近似匹配。例如,LingPipe 的教程中描述了这个操作。
一个 bash 脚本,其中包含从疾病本体生成的词典作为示例: https ://github.com/lasigeBioTM/MER
Open Targets有一个模块作为LINK的一部分。它不打算直接使用,因此可能需要一些黑客和修补,但它是我为 python 找到的最完整的医学 NER(命名实体识别)工具。有关更多信息,请阅读他们的博客文章。