-1

我正在使用基因表达数据进行结直肠癌分期多分类项目。我的数据集包含 11 个生物标志物。分类结果约为 40%。我尝试过使用 KNN、SVM、神经网络进行分类的不同模型......,并且我尝试过来自集成机器学习的算法。有谁知道我可以用数据集做什么来改善结果?

4

1 回答 1

0

要决定下一步做什么,您需要一些指标:

  1. 人类专家团队对数据的分类能力如何?
  2. 训练数据集上的模型精度是多少?
  3. 测试数据集上的模型精度是多少?

如果训练的准确率比人类专家差很多,你应该增加模型的复杂度,直到训练结果接近或超过人类专家。您可以通过增加输入特征的数量、选择不同的机器学习模型或增加 NN 中的层数来做到这一点。如果训练准确度很差,您需要先改进这一点,然后再花时间提高测试准确度。

如果训练准确度很好,但测试准确度比训练准确度差很多,那么你可能是过拟合了。获取或创建更多训练数据,并使用正则化。

于 2017-05-15T12:44:26.197 回答