我们目前正在为我们的医疗公司集成 ICD10-CM,用于患者诊断。ICD10-CM 是用于诊断的编码系统。
我尝试以描述-代码对的形式导入 ICD10-CM 数据,但显然它不起作用,因为 AutoML 需要更多文本用于该代码(标签)。我在 Kaggle 上找到了一个数据集,但它只包含 ICD10 网站的 href。我确实发现该网站包含多个与可用于训练所需模型的代码相关的文本和描述。
Kaggle 数据集: https ://www.kaggle.com/shamssam/icd10datacom
来自 ICD10data.com 的页面示例: https ://www.icd10data.com/ICD10CM/Codes/A00-B99/A15-A19/A17-/A17.0
最值得注意的领域是: - 近似同义词 - 临床信息 - 诊断索引
如果我从这些页面中找到的句子中创建一个数据集并将它们分配给它们的代码(标签),它是否足以用于 AutoML 数据集训练?因为每个标签最终都会有 2 个或更多文本,而不仅仅是一个,但与演示/教程中的那些不同,每个代码肯定仍然比 100 少得多。