问题标签 [dummy-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scikit-learn - scikit learn:如何检查系数的显着性
我尝试用 SKLearn 为一个相当大的数据集做一个 LR,该数据集有大约 600 个虚拟变量,只有很少的区间变量(我的数据集中有 300 K 行),由此产生的混淆矩阵看起来很可疑。我想检查返回的系数和方差分析的重要性,但我找不到如何访问它。有可能吗?对于包含大量虚拟变量的数据,最佳策略是什么?非常感谢!
matlab - 在 Matlab 中应用 dummyvar 函数
我有两个不同的双变量,每个变量有一列和 30000 行。例如:
如果我做:
但是当我这样做时:
我得到一个包含 355 列和 30000 行 1 和 0 的双矩阵,这意味着 Matlab 已经识别出 355 个不同的虚拟对象而不是 261 个。
和,
我也得到了 2012 列的双倍,这也是不正确的。
Matlab 正在按预期在我的分类列中识别出更多的假人,所以我一定做错了什么,但我不知道是什么,因为以前这个公式对我有用。有人能帮助我吗?谢谢你。
matlab - 在 Matlab 的回归中引入虚拟变量时出错
我在 Matlab 中运行一些回归。我的前三个回归是:
- Y1 是我的因变量,它是二进制的,它只取值 0 或 1。
- X1,自变量,是一个 1 列的逻辑变量。它是一个假人,它也只取 1 和 0 的值。
这 3 种不同的模型正在工作。
我之前建立了一组假人来控制不同的影响(例如:年份、行业、员工人数等),例如:
或者
我总共有 94 个假人,分为 4 个不同的逻辑阵列(D1-48 级别、D2-13 级别、D3-6 级别和 D4-27 级别)。
我现在要做的是将它们添加到上面的回归中:
但我总是得到错误:
我一直在尝试不同的选项,例如更改变量的类型或添加,tbl1.D1=nominal(D1);
但它总是会出错。我想这一定与我“介绍”虚拟组的方式有关。
有人可以帮我吗?谢谢你。
我试过这个(所有变量都改为双打):
它有效,但我不确定它是否正确。我收到这个警告:
警告:已达到迭代限制。
我不明白为什么,因为我降低了很多我的虚拟水平。
scala - 在 Scala 中使用惰性求值时如何摆脱虚拟变量?
我是 Scala 的新手,正在玩惰性求值,偶然发现了这个问题:如果我想让val c的惰性求值有效,我必须在c的声明之前编写虚拟变量a和b,这我认为样板文件太多。我试图在没有初始初始化的情况下声明a和b惰性值,但编译器抱怨。如果我写类似:也不起作用。 lazy val c = a:Double, b:Int
有没有办法摆脱这些虚拟变量?我可以用更优雅的方式重构这段代码吗?
r - 将数字变量转换为数据框中的虚拟变量时出现意外输出 - R
我在 R 的数据框中有这个数值变量:
然后,我尝试将其转换为虚拟变量,条件是如果 ncorrectas > 10 它应该具有值 1,否则为 0:
我尝试了以下代码:
但是,变量根本没有改变。那么我的代码有什么问题?以及如何根据需要将其转换为虚拟变量?
r - 在R中的约束下具有多个假人的线性回归lm
我正在尝试在某些约束下使用多个假人进行回归。公式为:在国家贝塔之和等于 0 且行业相同的约束下,返回 ~ 国家 + 行业。代码如下:(重现数据的dput在底部)
问题是
不显示所有系数(它忘记了部门“消费者自由裁量权”)。我读到 R 中的虚拟模型化自愿省略了一个虚拟对象作为截距,这就是我在公式中使用 0 的原因。
关于我正在考虑使用的约束
这应该确保一些 beta 为 0,即使我认为默认情况下 R 正在对虚拟回归应用这样的约束。
我的问题很简单,如何获得所有虚拟变量的系数以及 Ret ~ Dum.Count + Dum.sect 中的截距。
数据:
python - Pandas:将分类变量的值映射到预定义的虚拟列列表
我有一个具有已知级别的分类变量(例如hour
,它只包含 0 到 23 之间的值),但目前并非所有这些变量都可用(例如,我们有 0 到 11 点之间的测量值,而小时从 12 到 23不包括在内),尽管稍后将添加其他值。如果我们天真地使用pandas.get_dummies()
将值映射到指示变量,我们最终将只有 12 个而不是 24 个。有没有办法将分类变量的值映射到预定义的虚拟变量列表?
这是预期行为的示例:
r - 多年来创建虚拟变量
我有一个year
变量为 1950-2007 的数据,但是,year
由于另一列中的“月”变量,每个数据都重复了 12 次。如何创建年份虚拟变量?这就是我所拥有的,R 不接受它
c - 确定 sscanf 是否使用 %*s 读取任何内容
假设我有字符串:
现在说我要阅读并扔掉前两个单词:
我的问题是如何判断第二个是否sscanf
读过任何东西?
我是否需要bar
在每次读取之间设置 0 以确定是否实际读取了字符串,还是有更好的方法?
编辑:
检查sscanf
返回值将不起作用,因为 %*s 和 %n 不会增加sscanf
的返回值:
将输出:
0 6 0 6
java - 如何在 Java 中创建虚拟文件列表?
我需要创建一个List<File> files
, 以便它包含 3 个虚拟文件。我怎么做?
我需要它进行单元测试。
我做了
但我认为这是所有可能的一条线。