问题标签 [dummy-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
32718 浏览

scikit-learn - scikit learn:如何检查系数的显着性

我尝试用 SKLearn 为一个相当大的数据集做一个 LR,该数据集有大约 600 个虚拟变量,只有很少的区间变量(我的数据集中有 300 K 行),由此产生的混淆矩阵看起来很可疑。我想检查返回的系数和方差分析的重要性,但我找不到如何访问它。有可能吗?对于包含大量虚拟变量的数据,最佳策略是什么?非常感谢!

0 投票
2 回答
889 浏览

matlab - 在 Matlab 中应用 dummyvar 函数

我有两个不同的双变量,每个变量有一列和 30000 行。例如:

如果我做:

但是当我这样做时:

我得到一个包含 355 列和 30000 行 1 和 0 的双矩阵,这意味着 Matlab 已经识别出 355 个不同的虚拟对象而不是 261 个。

和,

我也得到了 2012 列的双倍,这也是不正确的。

Matlab 正在按预期在我的分类列中识别出更多的假人,所以我一定做错了什么,但我不知道是什么,因为以前这个公式对我有用。有人能帮助我吗?谢谢你。

0 投票
1 回答
1331 浏览

matlab - 在 Matlab 的回归中引入虚拟变量时出错

我在 Matlab 中运行一些回归。我的前三个回归是:

  • Y1 是我的因变量,它是二进制的,它只取值 0 或 1。
  • X1,自变量,是一个 1 列的逻辑变量。它是一个假人,它也只取 1 和 0 的值。

这 3 种不同的模型正在工作。

我之前建立了一组假人来控制不同的影响(例如:年份、行业、员工人数等),例如:

或者

我总共有 94 个假人,分为 4 个不同的逻辑阵列(D1-48 级别、D2-13 级别、D3-6 级别和 D4-27 级别)。

我现在要做的是将它们添加到上面的回归中:

但我总是得到错误:

我一直在尝试不同的选项,例如更改变量的类型或添加,tbl1.D1=nominal(D1);但它总是会出错。我想这一定与我“介绍”虚拟组的方式有关。

有人可以帮我吗?谢谢你。

我试过这个(所有变量都改为双打):

它有效,但我不确定它是否正确。我收到这个警告:

警告:已达到迭代限制。

我不明白为什么,因为我降低了很多我的虚拟水平。

0 投票
2 回答
152 浏览

scala - 在 Scala 中使用惰性求值时如何摆脱虚拟变量?

我是 Scala 的新手,正在玩惰性求值,偶然发现了这个问题:如果我想让val c的惰性求值有效,我必须在c的声明之前编写虚拟变量ab,这我认为样板文件太多。我试图在没有初始初始化的情况下声明ab惰性值,但编译器抱怨。如果我写类似:也不起作用。 lazy val c = a:Double, b:Int

有没有办法摆脱这些虚拟变量?我可以用更优雅的方式重构这段代码吗?

0 投票
1 回答
52 浏览

r - 将数字变量转换为数据框中的虚拟变量时出现意外输出 - R

我在 R 的数据框中有这个数值变量:

然后,我尝试将其转换为虚拟变量,条件是如果 ncorrectas > 10 它应该具有值 1,否则为 0:

我尝试了以下代码:

但是,变量根本没有改变。那么我的代码有什么问题?以及如何根据需要将其转换为虚拟变量?

0 投票
1 回答
579 浏览

r - 在R中的约束下具有多个假人的线性回归lm

我正在尝试在某些约束下使用多个假人进行回归。公式为:在国家贝塔之和等于 0 且行业相同的约束下,返回 ~ 国家 + 行业。代码如下:(重现数据的dput在底部)

问题是

不显示所有系数(它忘记了部门“消费者自由裁量权”)。我读到 R 中的虚拟模型化自愿省略了一个虚拟对象作为截距,这就是我在公式中使用 0 的原因。

关于我正在考虑使用的约束

这应该确保一些 beta 为 0,即使我认为默认情况下 R 正在对虚拟回归应用这样的约束。

我的问题很简单,如何获得所有虚拟变量的系数以及 Ret ~ Dum.Count + Dum.sect 中的截距。


数据:

0 投票
1 回答
2468 浏览

python - Pandas:将分类变量的值映射到预定义的虚拟列列表

我有一个具有已知级别的分类变量(例如hour,它只包含 0 到 23 之间的值),但目前并非所有这些变量都可用(例如,我们有 0 到 11 点之间的测量值,而小时从 12 到 23不包括在内),尽管稍后将添加其他值。如果我们天真地使用pandas.get_dummies()将值映射到指示变量,我们最终将只有 12 个而不是 24 个。有没有办法将分类变量的值映射到预定义的虚拟变量列表

这是预期行为的示例:

0 投票
2 回答
906 浏览

r - 多年来创建虚拟变量

我有一个year变量为 1950-2007 的数据,但是,year由于另一列中的“月”变量,每个数据都重复了 12 次。如何创建年份虚拟变量?这就是我所拥有的,R 不接受它

0 投票
5 回答
535 浏览

c - 确定 sscanf 是否使用 %*s 读取任何内容

假设我有字符串:

现在说我要阅读并扔掉前两个单词:

我的问题是如何判断第二个是否sscanf读过任何东西?

我是否需要bar在每次读取之间设置 0 以确定是否实际读取了字符串,还是有更好的方法?

编辑:

检查sscanf返回值将不起作用,因为 %*s 和 %n 不会增加sscanf的返回值:

将输出:

0 6 0 6

0 投票
3 回答
4098 浏览

java - 如何在 Java 中创建虚拟文件列表?

我需要创建一个List<File> files, 以便它包含 3 个虚拟文件。我怎么做?

我需要它进行单元测试。

我做了

但我认为这是所有可能的一条线。