“dummy-data”的相关标签问题

0 投票

1 回答

406 浏览

shell - Unix / Shell 将一系列列添加到文件

所以在过去的几天里我一直在尝试同样的问题，而且我遇到了格式化障碍。

我有一个程序，只有在它处理相同数量的列时才会运行。我知道总列数，以及填充值为 0 时需要添加的数量，但不知道如何执行此操作。awk 或 sed 是否有一些时间范围选项？

输入：

输出：

字母列总是存在（具有不同的值），但是这个“填空”功能让我望而却步。由于数据文件的大小，我不能为此使用 R。

2013-07-28T17:27:05.773

0 投票

4 回答

33547 浏览

python - 从熊猫中具有多个值的列创建假人

我正在寻找一种pythonic方式来处理以下问题。

该pandas.get_dummies()方法非常适合从数据框的分类列创建虚拟对象。例如，如果列在中具有值['A', 'B']，则get_dummies()创建 2 个虚拟变量并相应地分配 0 或 1。

现在，我需要处理这种情况。单列，我们称之为“标签”，具有类似['A', 'B', 'C', 'D', 'A*C', 'C*D']. get_dummies()创建 6 个假人，但我只想要其中的 4 个，这样一行就可以有多个 1。

有没有办法以pythonic方式处理这个问题？我只能想一些逐步的算法来获得它，但这不包括 get_dummies()。谢谢

已编辑，希望更清楚！

python pandas dummy-data categorical-data

2013-09-19T08:20:56.207

0 投票

1 回答

478 浏览

r - 如何在 R 中添加虚拟变量

我知道关于这个话题有几个问题，但似乎没有一个能回答我的具体问题。

我有一个包含五个自变量的数据集，我想在 R 中的回归中添加两个虚拟变量。我在 Excel 中有我的数据并且导入数据集不是问题（我使用 read.csv2）。现在，当我想查看我的虚拟变量 D1 和 D2 时，我看不到。我可以看到所有其他变量。这两个虚拟变量在数据集中都在 0 和 1 之间变化。

我可以很容易地看到我所有数据的摘要，包括 D1 和 D2（带有中位数、平均值等），我可以分别调用 5 个变量中的每一个，完全没有任何问题，但我不能用 D1 做到这一点和 D2。

总结一下：我可以在没有 D1 和 D2 的情况下在 R 中运行回归，但我不能将这些作为虚拟变量包含在内，因为当我运行它们时 R 找不到这些变量。R 简单地说“找不到对象 D1”。

我希望有人能帮帮忙。先感谢您。

亲切的问候米克尔

r dummy-data

2013-09-26T12:33:37.017

0 投票

2 回答

1423 浏览

r - R（或相关）冲积图

在一次调查中，我问了两个问题：

您的主要交通工具是什么？（只有 1 个可能答案和强制性答案）
你的二级交通工具是什么？（0 或多个答案，每个辅助传输包含 0 表示是，1 表示否）

以下是一些假数据：http ://pastebin.com/raw.php?i=pp1EHP7r

我的目标是创建两个部分与主要运输的左侧部分。带有二级运输的右侧部分。如果右列有值 1，则左传输链接右传输。例如对于第一个观察：公共汽车将连接到公共汽车（二级交通）和电车（二级交通），但不连接到地铁（二级交通）

我真的不知道该怎么做，因为只有当值包含 1 时，一个主要传输才需要连接到许多其他列...

我正在寻找那种图形流http://app.raw.densitydesign.org/#/

r conditional diagram flow dummy-data

2013-10-10T12:46:11.677

0 投票

1 回答

3123 浏览

java - Java：如何使用虚拟节点或将节点标记为虚拟节点

一个问题要求您删除链表中的中间节点，仅给出该节点。解决问题的方法是复制middle.next.element到middle.element然后middle.next删除middle.next=middle.next.next

有一种特殊情况，即 middle.next 是最后一个节点。答案说您可以将中间节点标记为虚拟节点。

我不熟悉“虚拟”的想法。如何将节点标记为虚拟节点以及在其他情况下如何使用虚拟节点？

一般的虚拟数据呢？

java linked-list dummy-data

2014-01-02T16:48:31.583

0 投票

1 回答

335 浏览

statistics - 统计虚拟变量作为因变量回归

我有一堆自变量：身高、体重等，我想将虚拟变量回归到这些变量上。例如，如果我想降低糖尿病（如果患者没有糖尿病，则为 0，如果患者确实患有糖尿病，则为 1）并且我想弄清楚体重增加 1 磅对患糖尿病概率的影响，我将如何去做？我确信有多种方法可以做到这一点，但我只是从未听说过这样做的模型。我认为这是概率模型，但我不确定。有什么想法吗？

statistics regression dummy-data

2014-01-08T18:04:34.337

0 投票

1 回答

861 浏览

r - 虚拟包中的 NA

我正在使用 dummies 包中的 R dummy.data.frame 函数为我的因子的 k 个级别创建虚拟变量。不幸的是，我的因素有 NA。当我使用 dummy.data.frame 时，它会创建 k 个没有 NA 的虚拟对象和一个新的虚拟对象，它用 1 个缺失值标记。但是，我希望在 k 假人中仍然有 NA，而不是缺失值的假人。

这个功能有可能吗？你知道任何其他可以帮助我的功能吗？

r na dummy-data

2014-02-19T08:53:18.643

0 投票

1 回答

1321 浏览

r - 将 9 个类别的竞赛变量重新编码为虚拟变量

请允许我先说我是 R 的新手。我清理了一些收入和租金变量，现在我试图将我的种族变量从 9 个类别重新编码为 2 个。原始变量的编码如下：

1=白色 2=黑色 3=本土 4=亚洲 5=A 6=B 7=C 8=D 9=E。我基本上是在尝试消除所有其他种族，只保留白色和黑色作为虚拟变量，其中 White=0 和 Black=1。这是代码：

操纵水平给我留下了“白色”和“黑色”，但是当我绘制它时，它也显示了 NA。我不确定如何摆脱因子变量中的 NA。任何想法，将不胜感激。

r missing-data na categorical-data dummy-data

2014-02-21T23:31:14.213

0 投票

0 回答

133 浏览

r - 创建倾斜的虚拟数据集

为了测试从实验室数据中去除异常值的一些策略，我想创建一个虚拟数据集，它是正态曲线和倾斜正态曲线的组合。这是为了复制我的数据是真实（良好）重复和其中一个点不正确到不同数量的重复的组合的情况。

我可以使用 rnorm 来创建好的数据，但是如何引入偏度来产生可疑的数据？

谢谢你。

r dummy-data

2014-03-03T02:49:26.530

0 投票

1 回答

3678 浏览

r - R：将 R 因子扩展到每个因子级别的虚拟列

我在 R 中有一个相当大的数据框，有两列。我试图从Code列（factor类型为 858 级）中找出虚拟变量。问题是当我尝试这样做时，R Studio 总是崩溃。

该User列不是唯一的，这意味着可以有几行具有相同的User. 不管最终行数保持不变还是将相同的行User合并到一行中，该行有几列非空且计数为Codes。

我发现了一些适用于较小数据集的解决方案，但不适用于我的。

尝试使用model.matrix，但 R Studio 只是崩溃

在这里找到自动将 R 因子扩展为每个因子级别的 1/0 指标变量的集合
尝试for使用循环ifelse，但代码运行了 4 小时，然后我注意到 R Studio 崩溃了。

在这里找到从分类变量创建新的虚拟变量列

如果您能向我推荐一些快速且适用于此类数据的方法，那就太好了。

谢谢！

r bigdata categorical-data dummy-data model.matrix

2014-03-09T18:46:14.450

问题标签 [dummy-data]

Reference