问题标签 [categorical-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 R 中生成两个具有选定关联度的分类变量
我想使用 R 生成两个分类变量(例如眼睛颜色和头发颜色),我可以在其中指定这两个变量的关联程度。对我来说,眼睛颜色的级别与头发颜色的级别相关并不重要,但能够指定整体关联,例如通过指定优势比,是一项要求。另外,我知道有一些方法可以使用例如包来对两个正态分布的连续变量执行此操作mvtnorm
,因此我可以采取该路线,然后选择切点以使变量在事后成为分类变量,但我不想要如果我能避免的话,就这样做。任何帮助将不胜感激!
编辑:很抱歉从一开始就没有更清楚,但我真正想问的是,在某个 R 包中是否有任何人都知道的函数可以在一两行中执行此操作。
python - 如何将分类数据转换为 R 或 Python:Pandas 中的每一列?
我有 csv 格式的购买数据。
我想要转换后的 csv ...
R或Python有什么好的转换方法吗?谢谢。
r - R - 返回数据集的完整联合概率分布
我有一个带有分类变量的data.frame,如下所示:
有没有一种简单的方法可以P(colour,size,texture)
使用 R 返回数据集的完整联合分布?对于上面的数据集,这将是一个具有维度的多维数据集:with(bird.data, levels(colour) * levels(size) * levels(texture))
。
例如,对于上面给出的数据集,我希望能够在多维数据集中存储如下所有信息:
r - 将数据框中的分类数据转换为加权邻接矩阵
我有以下数据框,称为 DF,它是由三个向量组成的数据框:“块”“名称”和“频率”。我需要把它变成一个 NameXName 邻接矩阵,其中当名称位于同一个块中时,它们被认为是相邻的。例如,在第一行中,Gretel 和 Friedrich 是相邻的,因为它们都在 Chunk2 中。并且关系的权重应该基于“频率”,即它们在同一个块中共存的次数,因此对于 Gretel/Friedrich 示例,频率(Gretel)+频率(弗里德里希)-1 = 5
我开始通过根据 DF$Chunk 拆分数据框来解决这个问题,
我认为它更接近了,但它返回了我无法转换回可用数据框的列表项。
我还尝试将其转换为 ChunkXName 邻接矩阵:
希望将 chunkbyname 与其转置相乘以获得 NAmeXName 矩阵,但似乎这是矩阵太稀疏或太复杂(a %*% b 中的错误:需要数字/复杂矩阵/向量参数)。
非常感谢将此数据框放入邻接矩阵的任何帮助。
r - 如何检查变量是否与R分类?
我有一个R数据框,其中一些变量是分类的。例如,性别是“男性”或“女性”,“你吸烟吗”是 0 或 1。其他变量是连续的。我想知道是否有任何方法可以确定变量是否为分类变量,以防万一计算其频率。
我认为在我的情况下,一个好的测试是检查变量是否小于 k=4 值。
r - 从 lm 中提取公式,包括分类变量 (R)
我有一个 lm 对象,想用系数提取公式。这个对象包括像月份这样的分类变量,以及与这些分类变量和数字变量的交互。
另一位用户提供了一些适用于除分类变量之外的所有代码的代码,但是当我添加分类变量(例如此处的 d)时,它会崩溃并给出错误“解析中的错误(文本 = x)::1:785:意外的数字常量”:
我从上面得到的是“解析错误(文本 = x): :1:53: 意外符号 1: y ~ -7 + 14.23 * b + -6.82 * c + -529.30 * factor(d)August
当我想要得到完整的公式时,每个月都乘以一个系数(或者在这种情况下只有 3 个,在我的实际数据集中,我有更多的数据,所有月份至少发生 8 次)。但它在这里停滞不前,在这个例子中使用“意外符号”,在我的实际数据中使用“解析错误(文本 = x)::1:785: 意外数字常量”,甚至没有尝试像这里那样做一个月(不知道为什么示例和实际代码之间存在差异)。
我的公式很大,所以它需要能够按比例放大(当前代码可以)。
r - 为什么有序向量并不总是根据 R 中的“is.ordered”进行排序?
我想这与水平和因素有关,但我不确定到底发生了什么:
两次,该函数都返回FALSE
,即没有一个向量是有序的。起初,我希望该函数能够测试给定向量是否在“顺序”的意义上是有序的,即“排序”。回到 的定义后is.sorted
,我假设它is.ordered
询问给定向量是否按其级别的顺序排序。向量测试(据我了解)不应该有任何级别,对吧?所以,“假”或多或少是正确的答案,我猜(但 NaN 会更好?)。任何人都可以a)帮助我理解 is.ordered 的真正作用以及何时会是真的,b)如何测试数字向量是否已排序/排序?
r - Anova表比较R中的组,导出到乳胶?
我主要处理观察数据,但我阅读了很多实验性硬科学论文,这些论文以方差分析表的形式报告结果,字母表示组间差异的显着性,然后是 f 的 p 值-stat 表示本质上是因子变量回归的联合显着性。这是我从谷歌图片搜索中提取的 一个例子。
我认为这可能是一种有用的方法,可以在我继续尝试以各种方式控制它们之前,在观察数据集中呈现关于组间差异(或缺乏)的汇总统计数据。我不确定这些字母通常代表什么测试(Tukey 的东西?),但成对的 t 检验很适合我的目的。
我的主要问题:如何从 R 中的因子变量回归中获得这样的输出,以及如何将其无缝导出到乳胶中?
以下是一些示例数据:
对它们做一个简单的回归,你会得到以下结果
很明显,因子 3 和 5 与零不同,彼此不同,但因子 3 与 2 没有区别,因子 5 与 6 没有区别(无论 p 值如何)。
我怎样才能像上面的例子一样把它变成 anova 表输出?有没有一种干净的方法可以把它变成乳胶,理想情况下是一种允许很多变量的形式?
r - 排序分类变量有优势吗?
我被告知最好在适当的地方对分类变量进行排序(例如短小于中小于长)。我想知道,在将分类变量建模为解释变量的情况下,将分类变量视为有序变量而不是简单分类变量的具体优势是什么?它在数学上是什么意思(最好用通俗的话来说!)?
非常感谢!
r - 制作因子变量的频率直方图
我对 R 很陌生,所以我为这样一个基本问题道歉。我花了一个小时在谷歌上搜索这个问题,但找不到解决方案。
假设我的数据集中有一些关于常见宠物类型的分类数据。我将它作为 R 中的字符向量输入,其中包含不同类型动物的名称。我这样创建它:
我把它变成了一个因素,以便在我的数据框中与其他向量一起使用:
我现在想创建一个直方图,它在 y 轴上显示每个变量的频率,在 x 轴上显示每个因子的名称,并且每个因子包含一个条形图。我尝试这段代码:
输出绝对不像我期望的那样。撇开标签问题不谈,我似乎无法弄清楚如何按类别创建简单的频率直方图。