“dummy-variable”的相关标签问题

0 投票

0 回答

73 浏览

matlab - 将 3-d 矩阵乘以带有虚拟变量的 2-d 矩阵

我有一个大小为 AxBxC 的 3D 矩阵 X 和一个大小为 CxD 的 2D 矩阵 Y。我想做一个矩阵乘法，最后得到一个大小为 AxBxD 的 3d 矩阵 R：

A = 30，B = 70，C = 300，D = 100。

3-d 矩阵是一个虚拟变量，取值：

1 - 在实例 AxB 的每个维度 C 中，如果 (...)（并且所有 Cs 的总和 = 300），每个 C 都不同。
0 - 否则

X 定义如下：

二维矩阵 Y 是时间序列数据。

我最大的问题是虚拟变量。

2016-04-29T16:57:40.343

0 投票

1 回答

62 浏览

r - 在R中基于二进制代码定义一个虚拟变量

以医院的以下患者数据示例为例。

我想引入一个虚拟变量$PAIR_IDENTIFIER，每次出现新值时都会采用一个新值sex==1。问题是sex变量没有常量模式。

您有时会看到成功1出现在该ith+2位置，然后是ith+3位置等。

所以$PAIR_IDENTIFIER <- c(1,1,2,2,3,3,3,4,4,4,4,4 .....)

r dummy-variable

2016-05-09T13:34:16.817

0 投票

1 回答

997 浏览

python - 如何对某些字符串变量应用 sklearn 的线性回归

我将使用逻辑回归预测一部电影的票房。我得到了一些火车数据，包括演员和导演。这是我的数据：

我将使用整数对导演和演员进行编码。

这意味着那X={[1,1],[2,2]} y=[300,500]有效fit(X,y) 吗？

python scikit-learn linear-regression dummy-variable

2016-05-10T15:53:19.870

0 投票

1 回答

3398 浏览

r - R var predict 需要外生变量列表和虚拟变量列表，如果我的规范不包含虚拟变量怎么办？

我正在 R 中开发向量自回归 (VAR) 时间序列模型。模型规范包括一个称为“endog”的内生变量矩阵（xts类）和一个称为“exog”的外生变量矩阵（也是xts类）。数据是季节性的，我希望预测季节性，因此我还指定“season = 12”，因为数据是每月的。所以我执行 var 模型的 R 代码是：

这段代码运行流畅。但现在我想预测未来 24 个时期的数据。所以我的预测代码是：

其中“exog_future”是与 exog 中相同变量的矩阵（也是xts类），但包括要预测的 24 个未来时期。（我尝试了两个版本：一个包含历史数据 exog 加上接下来 24 个时期的新数据，另一个版本只包含 24 个时期。）

我收到以下错误消息：

predict.varest(VAR(endog, p = 1, season = 12, type = "const", : 没有提供 dumvar 的矩阵，但对象 varest 包含外生变量。

显然，除了外生变量之外，R 还需要一个虚拟变量矩阵。除非 R 将“season = 12”规范视为虚拟变量矩阵，否则模型规范不包含虚拟变量，那么为什么它现在需要虚拟变量呢？如果它确实将季节性规范视为虚拟变量，那么我将“season = 12”添加到我的预测代码中。我收到了同样的错误信息。

我知道如果模型包含外生变量，那么我必须在预测代码中为这些变量提供未来值。我也明白，如果我提供了虚拟变量，那么出于基本相同的原因，该预测也需要这些变量的未来值。它们是外生变量，只是二元变量。

因此，当模型规范不包含虚拟变量时，R 期望我为“dumvar”提供什么？

r var predict dummy-variable

2016-05-13T20:07:45.277

0 投票

1 回答

570 浏览

variables - 如何通过面板数据中的假人折叠 2 个变量

我必须使用collapse我的数据集的一些变量，但我遇到了问题。

基本上，有2个变量

valor_receita_propria（英文是own_revenue_value）
qt_tec_total（或 total_tec_qt，一个机构的技术人员数量）。

有 2 个虚拟变量指定上述变量的值是指每个单独的工厂还是指他的企业。

例如，如果in_refT等于 1，则该qt_tec_total工厂的价值实际上是指整个企业。如果in_refT等于 2，则该植物的值是指该奇异植物。

我需要做的是汇总企业的所有价值。我的计划是取所有涉及企业的值的平均值，并取所有涉及每个工厂的值的总和，所以我写道：

我需要它只产生一个变量，每种变量仅指且专门用于每个整个企业。但是，它显示此错误：

无效 '(' r(198);

variables stata collapse panel-data dummy-variable

2016-05-16T20:17:27.050

0 投票

2 回答

92 浏览

r - 根据数据子集创建新的分类变量

我有一个看起来像这样的数据框：

供您参考，q' 代表“问题”。所以，q2是“问题2”。同样，ans是响应。

现在，我想根据中的响应创建一个分类变量q2。特别是我想分配以下类别：

上市
私人的
混合
其他

所以，如果ans=1to qst=q2，这是“Public”，如果ans=2toqst=q2这是“Private”等。所以，我之后的数据框应该是这样的：

我试图使用 ifelse，但我没有做我想做的事。有人可以给我一些建议吗？

数据

r data-manipulation data-cleaning dummy-variable

2016-05-18T14:32:04.280

0 投票

1 回答

1890 浏览

r - Caret RFE to deal to dummy variables that are levels of the same categorical variable

I have a classification problem and one of the predictors is a categorical variable X with four levels A,B,C,D that was transformed to three dummy variables A,B,C. I was trying to use the Recursive Feature Selection (RFE) in the caret package to conduct feature selection. How do I tell the RFE function to consider A,B,C,D together? so if say A is excluded, B&C are excluded too.

After fighting with this all day, I'm still going nowhere...Feeding RFE using the formula interface also doesn't work. I think RFE automatically converts any factors to dummy variables.

Below is my example code:

x_frame here, contains categorical variables that have multiple levels.

Any help is highly appreciated!

r r-caret feature-selection dummy-variable rfe

2016-05-19T16:22:04.590

0 投票

10 回答

25453 浏览

python - 并非所有类别都存在时的虚拟变量

我有一组数据框，其中一个列包含一个分类变量。我想将它转换为几个虚拟变量，在这种情况下我通常会使用get_dummies.

发生的情况是get_dummies查看每个数据帧中可用的数据以找出有多少类别，从而创建适当数量的虚拟变量。但是，在我现在正在处理的问题中，我实际上提前知道可能的类别是什么。但是，当单独查看每个数据框时，并非所有类别都一定会出现。

我的问题是：有没有办法将get_dummies类别的名称传递给（或等效函数），这样，对于没有出现在给定数据框中的类别，它只会创建一列 0？

可以做到这一点的东西：

变成这样：

python pandas machine-learning dummy-variable

2016-05-25T00:22:39.470

0 投票

4 回答

78 浏览

r - 创建一个非正统的虚拟变量

我需要创建一些非正统的虚拟变量，我遇到了一些麻烦。基本上在我的数据集中，每个老师都可以教授多个课程。我正在构建一个多级数据集，因此可以存在重复的教师 ID。

以下是数据示例：

如您所见，ID 为 1 和 3 的教师都教授 2 个不同的课程。

创建虚拟变量的传统方法产生：

但是，这是我希望新虚拟变量的外观：

我的预感是我需要遍历 id 来创建这些，但过去我真的看不到实现我想要的东西的途径。

r dataframe dummy-variable

2016-05-25T19:55:36.530

0 投票

0 回答

165 浏览

r - 1 在R中分别对训练和测试数据进行热编码

我需要根据前一个的长度添加大约100额外的列data.framedata.frame

例如，我有两个data.framesXtrain和Xtest. Xtrain作为 1000 列，但Xtest只有 900 列。这种差异是由于 1-hot 分别对Xtrainand进行编码Xtest。

如何将这 100 个缺失的列（全为 0）添加到Xtest？此外，扩充中的列顺序Xtest应与相同Xtrain。

这是我到目前为止所尝试的：

但这会添加一列e而不是extra.

r dummy-variable

2016-06-06T22:32:18.060

问题标签 [dummy-variable]

Reference