1

我有一个关于机器学习和决策树的问题。我从事计算生物学(长 RNA 二级结构预测)。

我有一个程序可以预测预测的 RNA 二级结构的准确性。程序的输入参数是

  • 茎长 (L) - 取值范围为 3、4、5、6、7 和 8
  • 间隙大小 (G) - 来自 0、1、2、3、4、5、6、7 和 8 的值
  • 块长度 (c) - 来自 60,70,80,90,100,120,130,140 和 150 的值

我想知道,对于给定的长度为 (S) 的 RNA 序列,哪种 L、G、C 组合可以提供最大的准确度。

我有一个包含 50 个序列长度为 S 的序列文件的训练数据集,对于每个这些序列文件,提供最大准确度输出的 L、G、C 输入参数组合是已知的。

有没有一种方法可以让我们知道要使用哪些特定的 L、G 和 C 参数,以便在没有所有 L、G 和 C 范围值的情况下找到最大精度?

4

2 回答 2

1

你的问题陈述不是很清楚。

您需要一个监督学习算法,该算法从您的 50 个训练示例中学习并创建一个预测程序,该程序将“序列文件”作为输入,并为该序列文件生成 L、G 和 C 的输出值。

那是对的吗?

监督学习算法有很多选择。序列文件中的数据究竟是什么?它是实数的向量吗?它有什么结构?如果您必须“手动”确定序列文件的 L、G 和 C,您能做到吗?你会怎么做?

于 2013-04-27T14:00:21.553 回答
1

我认为您想在三个参数(L,G,C)中找到一个“最大影响因素”,这不是一个很常见的要求,但我认为一些想法可能会对您有所帮助。

  1. 您可以构建几个不同的决策树,它们使用三个参数(一棵树)、两个参数(三棵树,因为每次您从三个参数中选择两个)和只使用一个参数(当然,三棵树)。所以你可以有七棵决策树,然后你可以将准确度输出与它们进行比较,这样你就可以知道不同参数对最终预测的贡献。

  2. 您可以计算这三个参数的相对矩阵和最终预测,然后您就知道它们对最终结果的贡献权重。

PS.你的要求(只选择一个因素来进行机器学习)通常不是一个好主意,因为不同因素对预测的贡献通常不是线性的,也就是说要知道,在机器学习中结合更多的因素在输入向量中通常会给你带来更好的结果。

祝你好运!

于 2017-03-27T09:58:09.383 回答