0

我们目前正在开发一个系统,该系统将从文本输入中返回 ICD10-CM 代码(一种医疗/诊断编码系统)。例子

  • 输入“黑眼”
  • return 'H44 - 全球疾病'

问题是,ICD10-CM 有 70,000 到 100,000 个代码,所以在我从 .csv 文件上传所有这些文本示例后,它不会让我训练模型。

使用多个模型是一种解决方案还是应该切换到 Google 的 AutoML?

4

1 回答 1

1

如果您有 70-100k 个代码或类,您将无法仅用 20k 个示例训练一个有用的模型。相比之下,ImageNet 数据集有 20k 个类别,但也有 1400 万个示例。

我不知道 ICD10-CM 是否有更广泛的类别,但如果有,您可以训练一个模型来预测这些类别。

另一种选择是将自己限制在示例中至少出现 100 次的代码中,并将所有其他代码放在一个类中。这意味着您将有很多无法返回代码的输入。

无论如何,我认为将您的模型仅用于实际医疗目的的 20k 示例将是危险的。

于 2019-11-18T09:34:22.370 回答