问题标签 [dummy-variable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - 将 3-d 矩阵乘以带有虚拟变量的 2-d 矩阵
我有一个大小为 AxBxC 的 3D 矩阵 X 和一个大小为 CxD 的 2D 矩阵 Y。我想做一个矩阵乘法,最后得到一个大小为 AxBxD 的 3d 矩阵 R:
A = 30,B = 70,C = 300,D = 100。
3-d 矩阵是一个虚拟变量,取值:
- 1 - 在实例 AxB 的每个维度 C 中,如果 (...)(并且所有 Cs 的总和 = 300),每个 C 都不同。
- 0 - 否则
X 定义如下:
二维矩阵 Y 是时间序列数据。
我最大的问题是虚拟变量。
r - 在R中基于二进制代码定义一个虚拟变量
以医院的以下患者数据示例为例。
我想引入一个虚拟变量$PAIR_IDENTIFIER
,每次出现新值时都会采用一个新值sex==1
。问题是sex
变量没有常量模式。
您有时会看到成功1
出现在该ith+2
位置,然后是ith+3
位置等。
所以$PAIR_IDENTIFIER <- c(1,1,2,2,3,3,3,4,4,4,4,4 .....)
python - 如何对某些字符串变量应用 sklearn 的线性回归
我将使用逻辑回归预测一部电影的票房。我得到了一些火车数据,包括演员和导演。这是我的数据:
我将使用整数对导演和演员进行编码。
这意味着那X={[1,1],[2,2]} y=[300,500]
有效fit(X,y)
吗?
r - R var predict 需要外生变量列表和虚拟变量列表,如果我的规范不包含虚拟变量怎么办?
我正在 R 中开发向量自回归 (VAR) 时间序列模型。模型规范包括一个称为“endog”的内生变量矩阵(xts
类)和一个称为“exog”的外生变量矩阵(也是xts
类)。数据是季节性的,我希望预测季节性,因此我还指定“season = 12”,因为数据是每月的。所以我执行 var 模型的 R 代码是:
这段代码运行流畅。但现在我想预测未来 24 个时期的数据。所以我的预测代码是:
其中“exog_future”是与 exog 中相同变量的矩阵(也是xts
类),但包括要预测的 24 个未来时期。(我尝试了两个版本:一个包含历史数据 exog 加上接下来 24 个时期的新数据,另一个版本只包含 24 个时期。)
我收到以下错误消息:
predict.varest(VAR(endog, p = 1, season = 12, type = "const", : 没有提供 dumvar 的矩阵,但对象 varest 包含外生变量。
显然,除了外生变量之外,R 还需要一个虚拟变量矩阵。除非 R 将“season = 12”规范视为虚拟变量矩阵,否则模型规范不包含虚拟变量,那么为什么它现在需要虚拟变量呢?如果它确实将季节性规范视为虚拟变量,那么我将“season = 12”添加到我的预测代码中。我收到了同样的错误信息。
我知道如果模型包含外生变量,那么我必须在预测代码中为这些变量提供未来值。我也明白,如果我提供了虚拟变量,那么出于基本相同的原因,该预测也需要这些变量的未来值。它们是外生变量,只是二元变量。
因此,当模型规范不包含虚拟变量时,R 期望我为“dumvar”提供什么?
variables - 如何通过面板数据中的假人折叠 2 个变量
我必须使用collapse
我的数据集的一些变量,但我遇到了问题。
基本上,有2个变量
valor_receita_propria
(英文是own_revenue_value)qt_tec_total
(或 total_tec_qt,一个机构的技术人员数量)。
有 2 个虚拟变量指定上述变量的值是指每个单独的工厂还是指他的企业。
例如,如果in_refT
等于 1,则该qt_tec_total
工厂的价值实际上是指整个企业。如果in_refT
等于 2,则该植物的值是指该奇异植物。
我需要做的是汇总企业的所有价值。我的计划是取所有涉及企业的值的平均值,并取所有涉及每个工厂的值的总和,所以我写道:
我需要它只产生一个变量,每种变量仅指且专门用于每个整个企业。但是,它显示此错误:
无效 '(' r(198);
r - 根据数据子集创建新的分类变量
我有一个看起来像这样的数据框:
供您参考,q
' 代表“问题”。所以,q2
是“问题2”。同样,ans
是响应。
现在,我想根据中的响应创建一个分类变量q2
。特别是我想分配以下类别:
- 上市
- 私人的
- 混合
- 其他
所以,如果ans=1
to qst=q2
,这是“Public”,如果ans=2
toqst=q2
这是“Private”等。所以,我之后的数据框应该是这样的:
我试图使用 ifelse,但我没有做我想做的事。有人可以给我一些建议吗?
数据
r - Caret RFE to deal to dummy variables that are levels of the same categorical variable
I have a classification problem and one of the predictors is a categorical variable X with four levels A,B,C,D that was transformed to three dummy variables A,B,C. I was trying to use the Recursive Feature Selection (RFE) in the caret package to conduct feature selection. How do I tell the RFE function to consider A,B,C,D together? so if say A is excluded, B&C are excluded too.
After fighting with this all day, I'm still going nowhere...Feeding RFE using the formula interface also doesn't work. I think RFE automatically converts any factors to dummy variables.
Below is my example code:
x_frame here, contains categorical variables that have multiple levels.
Any help is highly appreciated!
python - 并非所有类别都存在时的虚拟变量
我有一组数据框,其中一个列包含一个分类变量。我想将它转换为几个虚拟变量,在这种情况下我通常会使用get_dummies
.
发生的情况是get_dummies
查看每个数据帧中可用的数据以找出有多少类别,从而创建适当数量的虚拟变量。但是,在我现在正在处理的问题中,我实际上提前知道可能的类别是什么。但是,当单独查看每个数据框时,并非所有类别都一定会出现。
我的问题是:有没有办法将get_dummies
类别的名称传递给(或等效函数),这样,对于没有出现在给定数据框中的类别,它只会创建一列 0?
可以做到这一点的东西:
变成这样:
r - 创建一个非正统的虚拟变量
我需要创建一些非正统的虚拟变量,我遇到了一些麻烦。基本上在我的数据集中,每个老师都可以教授多个课程。我正在构建一个多级数据集,因此可以存在重复的教师 ID。
以下是数据示例:
如您所见,ID 为 1 和 3 的教师都教授 2 个不同的课程。
创建虚拟变量的传统方法产生:
但是,这是我希望新虚拟变量的外观:
我的预感是我需要遍历 id 来创建这些,但过去我真的看不到实现我想要的东西的途径。
r - 1 在R中分别对训练和测试数据进行热编码
我需要根据前一个的长度添加大约100
额外的列data.frame
data.frame
例如,我有两个data.frame
sXtrain
和Xtest
. Xtrain
作为 1000 列,但Xtest
只有 900 列。这种差异是由于 1-hot 分别对Xtrain
and进行编码Xtest
。
如何将这 100 个缺失的列(全为 0)添加到Xtest
?此外,扩充中的列顺序Xtest
应与 相同Xtrain
。
这是我到目前为止所尝试的:
但这会添加一列e
而不是extra
.