我正在为医学文本开发基于本体的注释工具,但在找到合适的数据集时遇到了一些麻烦。
我正在使用疾病本体,因此我需要一个专注于疾病及其症状/治疗的医学数据集。
数据集最好是自然语言文本(文章、研究等),但基于字典和基于列表的文本也可能会有所帮助。
感谢您的任何帮助!
我正在为医学文本开发基于本体的注释工具,但在找到合适的数据集时遇到了一些麻烦。
我正在使用疾病本体,因此我需要一个专注于疾病及其症状/治疗的医学数据集。
数据集最好是自然语言文本(文章、研究等),但基于字典和基于列表的文本也可能会有所帮助。
感谢您的任何帮助!
你的意思是你正在寻找一个生物医学文本语料库来注释?IE。识别关键术语。您可以尝试发布摘要——它们位于链接开放数据云中,您可以尝试使用 Wikipedia 获取消费者级别的内容,甚至 NIH 开放获取期刊的网站目录也会有大量开放的学术内容需要注释。
如果您还没有 - 请查看UMLS(以及它的副项目,如metamap) - 它对于任何类型的生物医学 NLP 都是无价的。如果你有兴趣,我想我有一份 UMLS 和疾病本体之间的映射文件。(RDF UMLS,http://linkedlifedata.com)
我有偏见(因为我是联合创始人),仍然在tagtog.net上你会发现一堆生物医学语料库。例如,IDP4+ 语料库注释基因突变提及及其影响(也包括某些疾病),而 V300 语料库注释引起疾病的病毒。