我正在尝试使用大型表达式数据集(沿列的所有分类变量)来找到一组好的分类变量来预测二元结果。每个受试者在几个但不是所有时间点(研究中的 T1-T7)进行测量。每个主题都有一个特定的 ID。为此,我决定使用MXM::MMPC.timeclass()
. 但是,它会产生负 p 值。据我了解p值......根据定义,概率不能为负。他们真的不能,这很明显。
我已经尝试MMPC.timeclass()
并进行了广泛的文献搜索,以找到另一种可能合适的方法,但目前还没有任何结果。
set.seed(5)
## assume these are longitudinal data, each column is a variable (or feature)
dataset <- matrix( rnorm(400 * 100), ncol = 100 )
id <- rep(1:80, each = 5) ## 80 subjects
reps <- rep( seq(4, 12, by = 2), 80)
## 5 time points for each subject
## dataset contains are the regression coefficients of each subject's values on the
## reps (which is assumed to be time in this example)
target <- rep(0:1, each = 200)
a <- MMPC.timeclass(target, reps, id, dataset)
a@pvalues %>% summary()
Min. 1st Qu. Median Mean 3rd Qu. Max.
-4.01762 -1.39835 -0.68720 -0.98512 -0.37326 -0.01365
预期结果应包括 p 值(在 0-1 范围内),甚至更好,包括筛选过程中每个变量的某种类型的排名。我以前用过VariableScreening::ScreenLD()
,但这是一个分类结果,所以它不适合数据。