0

我正在尝试使用大型表达式数据集(沿列的所有分类变量)来找到一组好的分类变量来预测二元结果。每个受试者在几个但不是所有时间点(研究中的 T1-T7)进行测量。每个主题都有一个特定的 ID。为此,我决定使用MXM::MMPC.timeclass(). 但是,它会产生负 p 值。据我了解p值......根据定义,概率不能为负。他们真的不能,这很明显。

我已经尝试MMPC.timeclass()并进行了广泛的文献搜索,以找到另一种可能合适的方法,但目前还没有任何结果。

set.seed(5)
## assume these are longitudinal data, each column is a variable (or feature)
dataset <- matrix( rnorm(400 * 100), ncol = 100 ) 
id <- rep(1:80, each = 5)  ## 80 subjects
reps <- rep( seq(4, 12, by = 2), 80)

## 5 time points for each subject
## dataset contains are the regression coefficients of each subject's values on the 
## reps (which is assumed to be time in this example)
target <- rep(0:1, each = 200)
a <- MMPC.timeclass(target, reps, id, dataset)
a@pvalues %>% summary()

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-4.01762 -1.39835 -0.68720 -0.98512 -0.37326 -0.01365 

预期结果应包括 p 值(在 0-1 范围内),甚至更好,包括筛选过程中每个变量的某种类型的排名。我以前用过VariableScreening::ScreenLD(),但这是一个分类结果,所以它不适合数据。

4

1 回答 1

0

答案是它们是对数 p 值。文档将相应更新。有关包作者的回复,请参阅https://github.com/mensxmachina/MXM-R-Package/issues/2

于 2019-05-07T02:24:14.577 回答