问题标签 [dummy-variable]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
211 浏览

sas - 如何在 PROC UCM 中使用指标变量?

我想在 Proc UCM 中使用指标变量。我有一个每周的交易量,我想使用天数作为指标变量,因为如果公共假期在周三或周四下降,那么交易量的下降率远高于周五假期的影响。那么我如何为工作日。周一周二周四周五。如果假期在周一,我将设置 MON=1,否则对所有人都为零相同的规则。如果我包含所有变量,是否会出现虚拟陷阱的问题。

0 投票
1 回答
102 浏览

python - 当每个观察值都包含一个可能值列表时,在 Pandas 中生成许多假人

我有一个数据框,其中一列如下所示:

我想生成一些虚拟变量,告诉我一行是否包含特定值。也就是说,在示例中,我想生成 5 个虚拟变量(d_A、d_B、d_C、d_X、d_U),以便数据看起来像

我有很多很多可能的值,所以我不能用手轻易地做到这一点。知道如何在熊猫中做到这一点(在矢量化模式下)吗?

谢谢!

0 投票
0 回答
1058 浏览

r - 如何在 R 中使用 Stargazer 进行多重回归?

我正在尝试使用 R 中的 Stargazer 包创建一个回归表。我有几个回归,它们仅在虚拟变量中有所不同。我希望它报告自变量、常数等的系数,并在回归中包含某些固定效应(即虚拟变量)时说“是”或“否”。这些是我的回归:

我已经尝试了 stargazer 命令的几种变体来让表格看起来正确,但它从来没有。当我运行这个命令时,对于五个或六个回归中的每一个,它都会按我的预期工作:

即,对于 m2,它在“State FE?”旁边显示“Yes”。和所有其他问题旁边的“否”。对于 m3,它在“状态 FE?”旁边显示“是”。和“FE 年月?” 和其他问题旁边的“否”。

但是当我运行这个命令时,该表对所有回归的所有问题都报告“否”:

有人知道发生了什么吗?无论我是单独还是一起进行每个回归,它都应该是一样的,不是吗?

我也得到了其他奇怪的结果......当我运行以下命令时:

我明白了:

0 投票
1 回答
4993 浏览

r - 在回归摘要中隐藏一些系数,同时仍然返回调用、r 平方和其他摘要输出

我的问题与这个问题类似,但是我有兴趣返回所有其他输出,而不仅仅是系数。这是使我的问题更清楚的示例代码。

我只想输出前 5 个系数。我知道我可以用 来做到这一点 summary(lm(data[,1]~.-data[,1],data=data))$coeff[1:5,],但这会摆脱我想要的所有其他输出。我也知道我可以单独获得每个输出,我只想知道是否有一种简洁的方法可以编写一个衬里并删除我不想报告的变量。

0 投票
1 回答
312 浏览

r - 验证数据中缺少类别

R我基于具有 12 个分类预测变量的训练数据集构建了一个分类模型,每个变量包含数十到数百个类别。

问题是在我用于验证的数据集中,一些变量的类别少于训练数据中的类别。

例如,如果我在训练数据变量 v1 中有 3 个类别 - 'a','b','c',则在验证数据集中 v1 只有 2 个类别 - 'a','b'

在决策树或随机森林等基于树的方法中,这没有问题,但在LASSO需要准备虚拟变量矩阵的逻辑回归方法(我使用 )中,训练数据矩阵和验证数据矩阵中的列数没有匹配。如果我们回到变量 v1 的示例,在训练数据中我得到 v1 的三个虚拟变量,而在验证数据中我只得到 2 个。

知道如何解决这个问题吗?

0 投票
2 回答
1296 浏览

python - 遍历并覆盖熊猫数据框中的特定值

我有一个大型数据框,用于整理一堆篮球数据(截图如下)。Opp Lineup 右侧的每一列都是一个虚拟变量,表示该球员(列名表示)是否在当前阵容中(列名的最后一部分是队名,需要与对手列进行比较确保在不同球队中拥有相同号码和姓名的两名球员不会搞砸)。我知道迭代熊猫数据框的几种方法(iterrows、itertuples、iteritems),但我不知道完成我需要的方法,即每列中的每一行:

  1. 将球队 (columnname.split()[2:]) 与对手列进行比较(LSU 球员除外)
  2. 查看名称 (columnname.split()[:2]) 是否在 Opp Lineup 中,或者对于 LSU 玩家,在 lineup 中
  3. 如果满足上述条件,则将该值替换为 1,否则将其保留为 0

在此处输入图像描述

循环遍历数据框并完成此任务的最佳方法是什么?在这种情况下,速度并不重要。我了解所涉及的所有逻辑,除了我对 pandas 不够熟悉,不知道如何遍历它,并且尝试了我在 Google 上看到的各种方法都不起作用。

0 投票
1 回答
707 浏览

r - R中的假人因素

我的数据包含有关智能手机的数据。要做一个random forest,我需要将我的因子 Brand 转换成很多假人。

问题是原始数据有 2039 行,而输出只有 2038 行。现在我想将虚拟对象添加到 mydata_price中,但这不起作用。

我怎样才能制作一个假人并将其添加到我的数据集中?

0 投票
2 回答
3631 浏览

r - 在 R 中使用 Stargazer 进行多次回归中的虚拟变量

我正在尝试使用 R 中的 Stargazer 包创建一个回归表。我有几个回归,它们仅在虚拟变量中有所不同。我希望它报告自变量、常数等的系数,并在回归中包含某些固定效应(即虚拟变量)时说“是”或“否”。这些是我的回归:

(顺便说一句,数据框代码在底部。)

如您所见,iv1 没有假人。iv2 有状态假人。iv4 有州和年份假人。iv5 有状态假人和时间趋势假人。

我不想报告所有这些假人的贝塔,我希望回归只报告是否包含每个假人。出于某种原因,我可以使用 Stargazer 使其适用于每个单独的回归,例如:

但是,当我尝试一次进行多个回归时,事情变得很奇怪:

注意现在所有的假人如何被报告为“否”。似乎没有假人的 iv1 的使用让 Stargazer 望而却步。我不知道为什么会这样!

所以,我的问题是:如何让 Stargazer 的组合输出看起来像这样?

我知道这似乎是一个愚蠢的问题。但是我试图为更多的回归做这个,并且每次手动格式化它是一个巨大的痛苦。任何和所有的建议都会有所帮助!谢谢。

这是我的数据:

0 投票
3 回答
106 浏览

r - 在 r 中为年份整数创建因子变量

我有一个如下所示的面板数据集。但实际数据集有数千个观察值。我想为 1984-1998 年(15 年)创建 14 个因子作为新列“Year_dum”。我搜索了在 r 中创建虚拟变量,但找不到使用年份整数的方法。任何人都可以帮我在r中做到这一点。

可以使用以下 dput 访问这个简单的数据集。

0 投票
1 回答
98 浏览

neural-network - Rapidminer 虚拟编码不匹配

我正在尝试通过在 trainData 上对其进行训练然后在 testData 上进行测试来使用神经网络,就像任何人都会做的那样。但是,数据需要将一些标称特征虚拟编码为数字。当我这样做时,它会训练神经网络,但在将其应用于测试数据(我在其上应用完全相同的转换/块)时失败,因为虚拟编码*不匹配。

*错误信息在以下行中:v47=H 在 testData 中不存在

我检查了一下,确实 testData 在 v47 中根本没有值“H”,而 trainData 有它。因此,我想在 v47 中忽略这个“H”,或者替换它。

有什么办法可以轻松做到这一点?请记住,其他功能也可能会发生这种情况,并逐个检查所有功能来解决此类问题,这将非常耗时。

也许还有另一种方法可以解决这个问题?

谢谢!