“model.matrix”的相关标签问题

0 投票

1 回答

413 浏览

r - 尝试在测试数据集上使用 model.matrix 函数

我正在参加一场 kaggle 比赛（房价：高级回归技术）。我一直在尝试对数据运行岭模型。我先把测试数据和训练数据结合起来，做了一些数据清洗，然后我把它们分开，用训练集想出了一个函数，把它应用到测试数据上。

在去掉了一些变量之后，我分离了两个数据集。

当我对训练数据使用 model.matrix 函数时，它会返回矩阵。但是当我在测试数据上尝试它时，它给了我一个包含所有变量的空行。

测试数据有一列我试图预测的 NA。

r machine-learning model.matrix

2020-01-17T20:22:19.263

0 投票

0 回答

144 浏览

r - 尚不支持 R 长向量中的错误

我正在使用具有 130 GB RAM 的 CentOS 7 Linux 计算集群。我正在尝试使用 e1071 R 包中的 SVM 功能。我的矩阵维度是行 = 350 和列 = 54250。

R 脚本代码 (file_testR.R)

bash 代码

我收到以下错误：

如果有人能帮助我理解这个问题，我将不胜感激。

r model.matrix e1071

2020-01-27T20:32:24.027

0 投票

0 回答

1366 浏览

r - 警告：忽略非列表对比参数

我正在使用 R 中的“mgcv”包运行 gamm：

但是，我不断收到下面的警告消息。我似乎无法弄清楚为什么我会收到此警告以及如何调整我的分析以解决警告提示我需要修复的任何错误。

数据的摘要和子集如下所示：

r lme4 nlme mgcv model.matrix

2020-02-05T06:36:12.277

0 投票

1 回答

63 浏览

r - 从整个数据框中删除所有特殊字符但保留因子级别定义

'正在尝试从我的数据框中完全删除特殊字符，例如“-”，“/”，“）”，“（”等。但是我的数据框仅包含一个观察值，因为它正在输入将用于生产的模型。我'已经为数据框明确定义了因子水平。

我尝试了以下方法：

接着：

但是当我这样做时，我失去了我的因子水平，它只是认为每个因子都有一个水平，这会在我尝试从我的模型中得到预测时导致问题，因为 sparse.model.matrix 需要 2 个或更多的水平每个因素，但真正在生产中，只会发送一个观察结果。

谢谢。

这是我的数据框：

r gsub xgboost model.matrix

2020-03-13T13:03:34.970

0 投票

1 回答

388 浏览

r - 在 R 中使用 cv.glmnet 对象创建模型矩阵以预测新数据

我有一个 cv.glmnet 用于预测新数据。在为要使用 cv.glmnet 对象预测的新数据创建模型矩阵时遇到问题。我需要阻止引导测试数据并预测所有样本的响应。当在某些样本中，某些分类变量只有一个级别时，就会出现问题。然后在创建模型矩阵时出现错误。这是一个例子。

然后我得到这个错误

contrasts<-( , value = contr.funs *tmp*[1 + isOF[nn]]) 中的错误：对比只能应用于具有 2 个或更多级别的因子

任何解决问题的建议将不胜感激。

r regression glm glmnet model.matrix

2020-04-30T00:04:23.847

0 投票

0 回答

345 浏览

r - 系数不可估计模型.矩阵

我正在使用 Limma 进行反分析，并且我有很多样本。我试图计算设计矩阵，然后计算 lmFit()。但是当我调用 lmFit 它返回

系数不可估计

参考设计矩阵中的最后一个系数。某些行有一些 NA 值，所以在计算设计矩阵之前我删除了它们。这是代码：

其中 x 是 DGE 对象。y 是一个数值变量，包含几乎不同的值。所以当我创建设计矩阵时，它包含很多列，因为变量 y 有很多级别。所以也许我应该创建一个新的变量 y2 ，使用ifelse()函数将 y 中的值划分为某些类别。

r linear-regression model.matrix limma

2020-06-10T08:22:53.513

0 投票

0 回答

492 浏览

r - 系数不可估计 voom r

我有一个 DGEList x，其中包含行中的基因和列中的样本（同一患者的多个样本）。我的数据中没有 NA，因为我使用了 complete.case 函数（）。我以这种方式创建设计矩阵：

其中 f 是一些特征（在这种情况下，我有 9 个特征）。这些只是数字向量而不是因子，因此在设计矩阵中每个特征只有一列（等于年龄）。相反，性别是一个因素（M 或 F）。所以在设计矩阵中它有 2 列。

当我打电话时：

它返回：

系数不可估计：f7 f8 f9 age genderF genderM
警告信息：17080 探针的部分 NA 系数我发现在传递给 model.matrix 的总值不再为 6 之前是可以的。

为什么？？

当我调用时：vfit <- lmFit(v, design) 它返回相同的警告，并且 vift$coefficents 中对应的列 (f7 f8 f9 age genderF genderM) 仅带有 NA。

我的另一个问题是？在 model.matrix 中使用多少个参数是正确的？因为我看到在model.matrix中传递6个参数没有错误，所以没问题，但不会超过6个。当我在model.matrix()中使用超过6个值时，它会返回之前描述的问题。

r matrix linear-regression model.matrix rna-seq

2020-06-14T10:39:02.427

0 投票

1 回答

62 浏览

r - 如何在 R 中生成特定的设计矩阵？

我想创建一个用于 glmnet 函数的设计矩阵。我的预测指标是球员姓名；当玩家i与玩家j进行比赛时，我希望该比赛的行在i列中具有 +1，在j列中具有 -1 。

例如，如果有三个玩家都互相玩，那么设计矩阵应该如下：

我试过使用 model.matrix 但我不确定如何创建这个特定的设计矩阵 - 或者如果这个矩阵有更好的格式也有助于了解！

r glm glmnet model.matrix

2020-06-23T14:38:11.520

0 投票

1 回答

102 浏览

r - 在 R 中创建一个 model.matrix 的定量预测器的问题

我必须对包进行 Lasso 回归，但glmnet我无法生成我的 x model.matrix 我的 data.frame：108 个观察值，Y 响应变量，24 个预测变量，这是一个概述：

我的 model.matrix 代码

它一般是一个非常大的 model.matrix，有 244728 个元素！似乎它已经复制了 24 的每个预测器一百次！以下是 data.matrix 的概述：

一点也不方便，因为我最终在 Lasso Regression 的输入 x 中得到了更多的预测变量，这使得预测变量的危险选择更加存在

你知道功能障碍的根源吗？有什么建议可以解决这个问题吗？

r lasso-regression model.matrix

2020-09-15T13:53:50.773

0 投票

1 回答

209 浏览

r - 在 R 中训练神经网络并获得“if (reached.threshold < min.reached.threshold) { 中的错误：需要 TRUE/FALSE 的缺失值”

我正在尝试使用该neuralnet软件包在 R 中训练一个神经网络。我正在运行回归模型并尝试预测计数变量“Rented_Bike_Count”。我混合了分类变量和数值变量，并通过model.matrix.

我已将数据转换为 model.matrix 并删除了截距项。我读过与这个问题类似的问题，每个人都说要降低学习率。它似乎根本没有帮助，我不相信我需要让我的学习率小到1e-6.

还有什么问题？我怎样才能解决这个问题？我尝试使用threshold=0.5它似乎可以工作，但我真的不明白为什么。

代码：

r neural-network model.matrix

2020-11-09T21:52:08.140

问题标签 [model.matrix]

Reference