r - 使用 SVM 进行基因表达分析

Question

我的问题：

a) 我得到了一个数据集，用于在 6 个时间点表达 1000 个基因。

b) 一些基因 ( testing set) 属于某个类别，其特征是基因表达在这些时间点上的分布。

c) 我也有这个类的已知基因数据集 ( training set)。

d）此外，我想false通过随机重组我的测试集来生成一个数据集，并将该数据集包含在我的 SVM 模型中。

我想我知道如何(a)-(c)通过使用R和e1071包来做，但我不确定如何实现(d). 我应该只用计算模型测试我的false数据，然后比较这个数据集上的结果test set吗？

我应该使用哪些分布进行比较？（paretro或者也许universal gamma提供我计算出的概率？）

score 0 · Accepted Answer

我会考虑两种方法：

正如您所建议的，在 SVM 中运行您的错误集（或者更确切地说，多个排列，即多个错误集）作为您的附加测试集，并将分数与真实测试集进行比较。从本质上讲，您希望证明您的真实测试集的性能明显优于大多数错误集。这将本着描述的统计测试的精神，例如，在本文中针对更复杂的数据。此外，本文可能有助于使用分箱方法将 SVM 分数转换为校准概率。
false使用该集合的一个子集作为第二个训练集构建一个二分类 SVM 。然后，分类任务将是确定您的基因表达模式更可能属于哪个类别：“阳性”类别或“假”类别。这篇论文、这个线程和这个线程，以及一般的 SVM 教科书，可能有助于决定如何最好地设计这个二分类器。

希望能帮助到你。

1 回答 1