0

我们目前正在为我们的医疗公司集成 ICD10-CM,用于患者诊断。ICD10-CM 是用于诊断的编码系统。

我尝试以描述-代码对的形式导入 ICD10-CM 数据,但显然它不起作用,因为 AutoML 需要更多文本用于该代码(标签)。我在 Kaggle 上找到了一个数据集,但它只包含 ICD10 网站的 href。我确实发现该网站包含多个与可用于训练所需模型的代码相关的文本和描述。

Kaggle 数据集: https ://www.kaggle.com/shamssam/icd10datacom

来自 ICD10data.com 的页面示例: https ://www.icd10data.com/ICD10CM/Codes/A00-B99/A15-A19/A17-/A17.0

最值得注意的领域是: - 近似同义词 - 临床信息 - 诊断索引

如果我从这些页面中找到的句子中创建一个数据集并将它们分配给它们的代码(标签),它是否足以用于 AutoML 数据集训练?因为每个标签最终都会有 2 个或更多文本,而不仅仅是一个,但与演示/教程中的那些不同,每个代码肯定仍然比 100 少得多。

4

1 回答 1

2

从我在这里可以看到,疾病代码具有树状结构,例如,所有 L00-L99 代码均指“皮肤和皮下组织疾病”。同时L00-L08代码指的是“皮肤和皮下组织感染”等。

我的意思是,问题不是针对 90000 个不同的独立标签的 90000 个示例,而是决策树(您根据前一个决策做出几个决策:第一步是选择大约 15 个最通用的类​​别中的哪一个最适合,然后选择哪个子类别等)

从这个意义上说,autoML 可能不是最好的产品,因为您无法实现一个专门设计的考虑所有这些的决策树模型。

使用 autoML 的另一种方法是分别针对每个决策进行训练,然后组合不同的模型。这很容易用于第一层决策,但会成倍地耗费时间(为了能够更准确地预测而训练的模型数量随着准确度的水平呈指数增长,准确的意思是确认它是 L00-L08代替 L00-L99)。

我希望这可以帮助您更好地理解问题以及您可以采取的不同方法!

于 2019-11-14T12:58:52.087 回答