问题标签 [r-factor]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
93148 浏览

r - 连接数据框的行

我想获取一个带有字符和数字的数据框,并将每一行的所有元素连接成一个字符串,该字符串将作为单个元素存储在向量中。例如,我制作了一个字母和数字的数据框,然后我想通过粘贴函数连接第一行,并希望返回值“A1”

因此 paste 将行中的每个元素转换为与“相应级别的索引”相对应的整数,就好像它是一个因子一样,并将其保持为长度为 2 的向量。(我知道/相信被强制为字符的因素以这种方式表现,但由于 R 根本没有将 df[1,] 存储为一个因素(由 is.factor() 测试,我无法验证它实际上是一个级别的索引)

因此,如果它不是向量,那么它的行为很奇怪是有道理的,但我不能将它强制转换为向量

使用as.character似乎对我的尝试没有帮助

谁能解释这种行为?

0 投票
1 回答
2038 浏览

r - 查找R中每列每个因子的数量

我正在尝试编写代码,允许我在 R 中找到每列每个因子的数量,但我希望每列中的因子水平相同。我认为这应该是微不足道的,但我遇到了两个地方,当使用 apply with factor 和使用 apply with table 时,R 没有返回我期望的值。

考虑这个样本数据:

我的第一步是重新调整每一列,使因子水平相同。起初我试过:

所以我用循环蛮力强迫它......

然后我遇到了另一个应用问题。我认为现在我已经设置了因子水平,如果我在列中缺少给定因子,则表函数应该为该因子水平返回 0 计数。然而,当我使用 apply 时,似乎零计数的因子水平被丢弃了!

有人会解释在这两种情况下发生了什么吗?我在误解什么?

0 投票
4 回答
6398 浏览

r - drop = TRUE 不会在 data.frame 中删除因子级别,而在 vector 中会删除

data.frame 过滤中有一个有趣的选项drop = TRUE,请参见以下内容的摘录help('[.data.frame')

用法

类“data.frame”的 S3 方法

但是当我在data.frame上尝试它时,它不起作用!

我知道还有其他方法,例如

但是文档承诺以更优雅的方式来做到这一点,那么为什么它不起作用呢?它是一个错误吗?因为我不明白这怎么可能是一个功能......

编辑drop = TRUE:我对降低向量的因子水平感到困惑,正如您在此处看到的那样。[i, drop = TRUE]降低因子水平并[i, j, drop = TRUE]没有,这不是很直观!!

0 投票
1 回答
823 浏览

r - 将虚拟变量重新编码为有序因子

我需要一些关于逻辑回归编码因素的帮助。

我有六个代表收入等级的虚拟变量。我想将这些转换为单个有序因子以用于逻辑回归。

我的数据框如下所示:

我希望它看起来像什么:

这一定是一个常见(且简单)的操作,但我的搜索并没有找到关于如何执行这种重新编码的简明答案。很感谢任何形式的帮助。

0 投票
3 回答
11811 浏览

r - 忽略R中ggplot的因素之一

我使用 ggplot 来绘制我的变量和属性。我正在使用以下代码来使用 ggplot 和因子:

代码结果: 在此处输入图像描述

我只想呈现“异常值”,并从情节中省略“正常”因素。

样本数据:

0 投票
1 回答
1168 浏览

r - 使用 qplot 只绘制一个数据子集

我有一个d这样命名的列表:

V1是 0 - 50 的整数集 V2是 1500 - 1800 的实 V3数集 是 1 - 50 的整数集

该列表总共包含 5100 个对象

现在我想绘制 的直方图V2,其中V1= 某个数字(0、1 或 10 等)

我尝试了不同的方法:

我真的为此发疯了。检查特性d$V1却没有发现什么奇怪的。任何人都可以帮助我吗?

0 投票
1 回答
1856 浏览

r - 从表结果中提取因子标签以用作数据框列

我正在使用原始行输入格式 UID=character, Win/Lose=Boolean 进行点击流日志文件摘要。我要创建的输出摘要是表单行 UID、sumWin、sumLose。我已经使用表格来获得我想要的部分内容,但是我无法找出正确的语法来从表格结果中提取因子标签以用于摘要 df。下面的示例构建了一个小测试用例并显示了我卡住的地方:我无法从表格结果中获取因子标签。(当然,你认为有一种更好的方法来处理整个事情——这显然也会非常有用!)

我在这里的编辑器中仍然无法格式化 - 显然这是我接下来需要问的问题......!

0 投票
2 回答
2147 浏览

r - 如何基于当前因子创建新因子?

R中,我想做的是通过在另一个因子或字符串中“分组”值来创建一个因子。

我想要的是创建一个factor2这样的A& BareEC& Dare F。我尝试过循环,但无法让它工作,但相信必须有一种优雅的R方式来做到这一点。

0 投票
1 回答
393 浏览

r - 子集时带有因子的R大数据框不会缩小

我有一个包含多个因子变量的大型数据框(100k Row x 50 Col)。我想要一个小子集(比如 100 行)来做一些原型设计。问题是当我输入:

大小缩小(使用dim()),但它似乎仍然存储了原始数据帧中的所有因素(我正在使用lsos()找到的here测量内存大小)。

有没有办法解决这个问题?到目前为止,我发现的唯一方法是将因子变量转换为字符串,然后是子集,然后再次转换为因子。我觉得必须有更好的方法来做到这一点。

有什么建议么?

0 投票
3 回答
54117 浏览

r - 将具有2个级别的因子转换为R中的二进制值0/1

我有一个变量,称为gender,具有二进制分类值“女性”/“男性”。我想将其类型更改为整数 0/1,以便可以在回归分析中使用它。即我希望将值“女性”和“男性”映射到 1 和 0。

我想转换性别变量类型,以便在查询元素时得到 int 值 1,即