0

我的问题:

a) 我得到了一个数据集,用于在 6 个时间点表达 1000 个基因。

b) 一些基因 ( testing set) 属于某个类别,其特征是基因表达在这些时间点上的分布。

c) 我也有这个类的已知基因数据集 ( training set)。

d)此外,我想false通过随机重组我的测试集来生成一个数据集,并将该数据集包含在我的 SVM 模型中。

我想我知道如何(a)-(c)通过使用Re1071包来做,但我不确定如何实现(d). 我应该只用计算模型测试我的false数据,然后比较这个数据集上的结果test set吗?

我应该使用哪些分布进行比较?(paretro或者也许universal gamma提供我计算出的概率?)

4

1 回答 1

0

我会考虑两种方法:

  1. 正如您所建议的,在 SVM 中运行您的错误集(或者更确切地说,多个排列,即多个错误集)作为您的附加测试集,并将分数与真实测试集进行比较。从本质上讲,您希望证明您的真实测试集的性能明显优于大多数错误集。这将本着描述的统计测试的精神,例如,在本文中针对更复杂的数据。此外,本文可能有助于使用分箱方法将 SVM 分数转换为校准概率。

  2. false使用该集合的一个子集作为第二个训练集构建一个二分类 SVM 。然后,分类任务将是确定您的基因表达模式更可能属于哪个类别:“阳性”类别或“假”类别。这篇论文这个线程这个线程,以及一般的 SVM 教科书,可能有助于决定如何最好地设计这个二分类器。

希望能帮助到你。

于 2013-05-24T05:45:10.013 回答