问题标签 [r-factor]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
125 浏览

r - R中的计数因子建立在BAZ上

我有一个类似的问题来计算 r 中的独特因素,但是提供的解决方案不适用于我的数据。

我的数据是按药物组织的,df 中包含的专利信息作为变量,而不是患者是行单位。

我有 4 个唯一 ID,我想知道这 4 个 ID 的性别划分,应该是

但是我尝试的所有代码都让我返回了每种性别的药物数量,例如,

有人可以帮我解决这个问题吗?当我使用以前的帮助时,我得到一个唯一 ID 列表,其中性别列为 50。

0 投票
1 回答
931 浏览

r - R错误:下标超出了by()与kappam.fleiss()嵌套的界限

我有一个数据框,我想在其中为多个评估者在我的因素“形式”的多个级别上计算评估者协议 (Fleiss Kappa)。当我运行我的代码时,我收到以下错误:

这是它的外观示例:

当我使用 str(x) 查看底层结构时,我看不出我的“form”变量有什么问题。

这是它显示的内容:

我究竟做错了什么?

谢谢!

0 投票
4 回答
6610 浏览

r - R:因子水平,将其余部分重新编码为“其他”

我很少使用因子,通常认为它们是可以理解的,但我经常对特定操作的细节感到模糊。目前,我正在将几乎没有观察到的类别编码/折叠到“其他”中,并且正在寻找一种快速的方法来做到这一点——我可能有 20 个级别的变量,但我有兴趣将它们中的一堆折叠成一个。

这是我的兴趣水平,以及它们在不同向量中的标签。

我可以使用该factor()调用,将它们全部枚举,每当一个类别几乎没有观察到时,将它们归类为“其他”。

假设上述top8和以上是实际的前 8 名,那么声明为因子变量top8_desc的最佳方式是什么,以便正确编码中的值并将其他所有内容重新编码为?data$naicstop8other

0 投票
2 回答
8699 浏览

r - R基于格式为范围(xx-xx)的因子变量对数据框进行子集

我现在面临这个问题好几个小时了,但我知道我遗漏了一些明显的东西。

这是我的问题:

我在 .xlsx 文件中有一个数据框,可以在此处下载。

我在 MAC 上使用 RStudio 将此数据帧加载到 R 中,并将其命名为 demoData。有 5 个变量(AgeRange、Women、Men、Total 和 Year)。

我无法使用 AgeRange 上的条件对该数据框进行子集化。该变量的格式如下:xx-xx(00-04 表示 00 到 04 岁之间的人)。当我尝试这样做时,我得到的消息是没有行满足这个条件。变量“AgeRange”的类是因子。

这是我的代码:

谢谢您的帮助。

编辑:来自阿伦。这是来自的输入head(demoData)

0 投票
1 回答
173 浏览

r - 计算后将因子均值放入数据集中

我正在尝试根据个人会议手段和 SD 为我正在使用的变量创建一个标准化值。我发现会议意味着使用该功能:

confavg=aggregate(base$AVG, by=list(base$confName), FUN=mean)

因此,在获得 31 次会议的平均值后,我想返回并为每个单独的球员输入这些平均值,这样我就可以轻松地根据会议平均值计算出标准化因子。

我试图创建大型 ifelse 或 if 语句,其中 confavg 是会议平均值。

ifelse((base$confName=="America East Conference"),confavg[1,2]->base$CAVG,0->base$CAVG)

但没有任何效果。理想情况下,我想让每个玩家都说:

Normalization = (player average - conference average)/conference standard deviation

我该怎么做呢?

编辑:

以下是一些示例数据:

所以每个球员都会有他们的平均值 - 会议平均值/会议的标准差

所以对于第一个人来说,这将是:

但我希望为我的数据集中的所有人构建一个函数。谢谢!

编辑2:

好吧,下面的答案很棒,但我(希望)遇到了最后一个问题。我想基本上对三个变量执行此过程,例如:

哪个有效,但是当我搜索数据文件时:

它重置 Scaled K.AB 值并且不将其用作搜索参数的一部分。

0 投票
1 回答
110 浏览

r - 使用 do.call 因子进行缩放 - 重置值错误

这是我在这里提出的问题的扩展: 在计算后将因子均值放入数据集中

现在我已经基本标准化了我有兴趣使用的所有统计数据,我想在数据集中搜索与这些数据相交的人。因此,我正在搜索这样的数据集:

寻找所有这三件事都为真的玩家,但是当我运行它时,它会将 Scaled K.AB 值重置为 0.5、1 或 2,然后不使用该参数进行搜索。以这种方式搜索数据集是否有问题,或者是否有更好的方法以同样的方式在数据集中查找人员?

这是一些示例数据,但它与我使用 4000 条记录时没有相同的问题:

谢谢!

0 投票
2 回答
492 浏览

r - 读取因子的数据框(在 R 中)

我是 R 的新手。要在包中使用,我需要一个“因子数据框”。

我有一个形式的文本文件:

所以每一列代表一个变量,可以是 1、2 或 3。请建议一个命令,允许我从这样的文本文件中获取因子的数据框(仅将文件作为矩阵读取是不行的,我需要有真正的“因素”)。

提前致谢。

0 投票
3 回答
2647 浏览

r - 如何将行转换为R中的因子?

例如,我有一个矩阵:

我想制作一个对象ba所以这b是一个因素,每个级别代表a. 在这种情况下,b将是:

我可以用肮脏的方式做到这一点,但我想知道是否有一个优雅的解决方案?

0 投票
1 回答
369 浏览

r - 在 R 中搜索两个因子水平的特定交互作用

我正在寻找一种方法来搜索构成数据框行的因素级别之间的特定交互形式。

我有一个数据框,例如这个,其中每一列都是一个个体,每一行都是一个观察:

我要检测的是因子水平组合的存在(或不存在),例如 for an x:x' and x:y'exists also a combination y:x' and y:y'。例如在这里,第 2 行和第 3 行存在这样的组合,我可以通过使用interactionor看到:

:

但是,现在,我希望自动完成检测,这样我就可以将所有行对的标签放在数据框中,其中包含这样的配置 (x:y, x:y', x':y, x':y') 被检测到我以后要绘制的网络的边缘列表中(例如,我想"2","3"在边缘列表中添加一行)。

我找到了一种使用 Perl 和正则表达式的复杂方法来做到这一点,但我想知道在 R 中是否存在不使用 Regexp 的方法来做到这一点。

编辑[04/05/2013]

为避免不清楚,以下是有关我正在寻找的配置的更多详细信息:

因此,举几个例子,交互例如:

或者

会匹配,但不匹配

或者

例如。

我现在拥有的是一个代码,它可以在很长一段时间内完成我想做的事情(模仿以前的 Perl 脚本)(即使我添加了一个 while 循环以避免不必要的比较),并使用多个循环和正则表达式. 我希望有一种不那么复杂的方法来进行这种比较。这是我现在的做法:

0 投票
3 回答
60854 浏览

r - 如何在不更改值的情况下将因子格式转换为 R 中的数字格式?

下面是数据框 df1,我想在不更改当前值(0;0;8,5;3)的情况下将列“V2”从因子格式转换为数字。

df1=

由于列“V2”是因子格式,我首先将其转换为字符格式: df1[,2]=as.character(df1[,2])

然后我尝试将“V2”转换为数字格式:

df1[,2]=as.numeric(df1[,2])

导致此 R 消息:

Warning message: NAs introduced by coercion

并且下面的数据框df[3,2]已更改为“NA”而不是剩余的“8,5”..

这可能与 8,5 不是整数有关。我仍然不知道如何解决这个问题。帮助将不胜感激!