问题标签 [dummy-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
shell - Unix / Shell 将一系列列添加到文件
所以在过去的几天里我一直在尝试同样的问题,而且我遇到了格式化障碍。
我有一个程序,只有在它处理相同数量的列时才会运行。我知道总列数,以及填充值为 0 时需要添加的数量,但不知道如何执行此操作。awk 或 sed 是否有一些时间范围选项?
输入:
输出:
字母列总是存在(具有不同的值),但是这个“填空”功能让我望而却步。由于数据文件的大小,我不能为此使用 R。
python - 从熊猫中具有多个值的列创建假人
我正在寻找一种pythonic方式来处理以下问题。
该pandas.get_dummies()
方法非常适合从数据框的分类列创建虚拟对象。例如,如果列在 中具有值['A', 'B']
,则get_dummies()
创建 2 个虚拟变量并相应地分配 0 或 1。
现在,我需要处理这种情况。单列,我们称之为“标签”,具有类似['A', 'B', 'C', 'D', 'A*C', 'C*D']
. get_dummies()
创建 6 个假人,但我只想要其中的 4 个,这样一行就可以有多个 1。
有没有办法以pythonic方式处理这个问题?我只能想一些逐步的算法来获得它,但这不包括 get_dummies()。谢谢
已编辑,希望更清楚!
r - 如何在 R 中添加虚拟变量
我知道关于这个话题有几个问题,但似乎没有一个能回答我的具体问题。
我有一个包含五个自变量的数据集,我想在 R 中的回归中添加两个虚拟变量。我在 Excel 中有我的数据并且导入数据集不是问题(我使用 read.csv2)。现在,当我想查看我的虚拟变量 D1 和 D2 时,我看不到。我可以看到所有其他变量。这两个虚拟变量在数据集中都在 0 和 1 之间变化。
我可以很容易地看到我所有数据的摘要,包括 D1 和 D2(带有中位数、平均值等),我可以分别调用 5 个变量中的每一个,完全没有任何问题,但我不能用 D1 做到这一点和 D2。
总结一下:我可以在没有 D1 和 D2 的情况下在 R 中运行回归,但我不能将这些作为虚拟变量包含在内,因为当我运行它们时 R 找不到这些变量。R 简单地说“找不到对象 D1”。
我希望有人能帮帮忙。先感谢您。
亲切的问候米克尔
r - R(或相关)冲积图
在一次调查中,我问了两个问题:
- 您的主要交通工具是什么?(只有 1 个可能答案和强制性答案)
- 你的二级交通工具是什么?(0 或多个答案,每个辅助传输包含 0 表示是,1 表示否)
以下是一些假数据:http ://pastebin.com/raw.php?i=pp1EHP7r
我的目标是创建两个部分与主要运输的左侧部分。带有二级运输的右侧部分。如果右列有值 1,则左传输链接右传输。例如对于第一个观察:公共汽车将连接到公共汽车(二级交通)和电车(二级交通),但不连接到地铁(二级交通)
我真的不知道该怎么做,因为只有当值包含 1 时,一个主要传输才需要连接到许多其他列...
我正在寻找那种图形流http://app.raw.densitydesign.org/#/
java - Java:如何使用虚拟节点或将节点标记为虚拟节点
一个问题要求您删除链表中的中间节点,仅给出该节点。解决问题的方法是复制middle.next.element
到middle.element
然后middle.next
删除middle.next=middle.next.next
有一种特殊情况,即 middle.next 是最后一个节点。答案说您可以将中间节点标记为虚拟节点。
我不熟悉“虚拟”的想法。如何将节点标记为虚拟节点以及在其他情况下如何使用虚拟节点?
一般的虚拟数据呢?
statistics - 统计虚拟变量作为因变量回归
我有一堆自变量:身高、体重等,我想将虚拟变量回归到这些变量上。例如,如果我想降低糖尿病(如果患者没有糖尿病,则为 0,如果患者确实患有糖尿病,则为 1)并且我想弄清楚体重增加 1 磅对患糖尿病概率的影响,我将如何去做?我确信有多种方法可以做到这一点,但我只是从未听说过这样做的模型。我认为这是概率模型,但我不确定。有什么想法吗?
r - 虚拟包中的 NA
我正在使用 dummies 包中的 R dummy.data.frame 函数为我的因子的 k 个级别创建虚拟变量。不幸的是,我的因素有 NA。当我使用 dummy.data.frame 时,它会创建 k 个没有 NA 的虚拟对象和一个新的虚拟对象,它用 1 个缺失值标记。但是,我希望在 k 假人中仍然有 NA,而不是缺失值的假人。
这个功能有可能吗?你知道任何其他可以帮助我的功能吗?
r - 将 9 个类别的竞赛变量重新编码为虚拟变量
请允许我先说我是 R 的新手。我清理了一些收入和租金变量,现在我试图将我的种族变量从 9 个类别重新编码为 2 个。原始变量的编码如下:
1=白色 2=黑色 3=本土 4=亚洲 5=A 6=B 7=C 8=D 9=E。我基本上是在尝试消除所有其他种族,只保留白色和黑色作为虚拟变量,其中 White=0 和 Black=1。这是代码:
操纵水平给我留下了“白色”和“黑色”,但是当我绘制它时,它也显示了 NA。我不确定如何摆脱因子变量中的 NA。任何想法,将不胜感激。
r - 创建倾斜的虚拟数据集
为了测试从实验室数据中去除异常值的一些策略,我想创建一个虚拟数据集,它是正态曲线和倾斜正态曲线的组合。这是为了复制我的数据是真实(良好)重复和其中一个点不正确到不同数量的重复的组合的情况。
我可以使用 rnorm 来创建好的数据,但是如何引入偏度来产生可疑的数据?
谢谢你。
r - R:将 R 因子扩展到每个因子级别的虚拟列
我在 R 中有一个相当大的数据框,有两列。我试图从Code
列(factor
类型为 858 级)中找出虚拟变量。问题是当我尝试这样做时,R Studio 总是崩溃。
该User
列不是唯一的,这意味着可以有几行具有相同的User
. 不管最终行数保持不变还是将相同的行User
合并到一行中,该行有几列非空且计数为Code
s。
我发现了一些适用于较小数据集的解决方案,但不适用于我的。
尝试使用
model.matrix
,但 R Studio 只是崩溃尝试
for
使用 循环ifelse
,但代码运行了 4 小时,然后我注意到 R Studio 崩溃了。在这里找到从分类变量创建新的虚拟变量列
如果您能向我推荐一些快速且适用于此类数据的方法,那就太好了。
谢谢!