我有一个关于机器学习和决策树的问题。我从事计算生物学(长 RNA 二级结构预测)。
我有一个程序可以预测预测的 RNA 二级结构的准确性。程序的输入参数是
- 茎长 (L) - 取值范围为 3、4、5、6、7 和 8
- 间隙大小 (G) - 来自 0、1、2、3、4、5、6、7 和 8 的值
- 块长度 (c) - 来自 60,70,80,90,100,120,130,140 和 150 的值
我想知道,对于给定的长度为 (S) 的 RNA 序列,哪种 L、G、C 组合可以提供最大的准确度。
我有一个包含 50 个序列长度为 S 的序列文件的训练数据集,对于每个这些序列文件,提供最大准确度输出的 L、G、C 输入参数组合是已知的。
有没有一种方法可以让我们知道要使用哪些特定的 L、G 和 C 参数,以便在没有所有 L、G 和 C 范围值的情况下找到最大精度?