问题标签 [categorical-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 你如何(以及为什么)使用对比?
在什么情况下,您会在分析中产生对比?它是如何完成的,它的用途是什么?
我检查?contrasts
并?C
- 都导致“S中的统计模型第2章”,这对我来说并不容易获得。
r - 具有多个项目的交叉表
在 SPSS 中,使用因子(或值)作为表标题来创建具有多个变量的交叉表(相对)容易。因此,类似于以下内容(组成数据等)。Q1、Q2 和 Q3 每个人都有 1、2 或 3。我只是将这些作为数字留下,但它们可能是因素,似乎都无助于解决问题。
在 SPSS 中,甚至可以请求行、列或总百分比。
我已经尝试过来自 gmodels 的 table()、ftable()、xtab()、CrossTable() 和来自 descr 的 CrossTable(),但这些都不能处理(afaik)多个变量;他们似乎主要处理一个与另一个变量交叉的变量,第三个创建层。
是否有一个包含一些好的交叉表/表格示例的包,我可以用它来解决这个问题?我确定我错过了一些简单的东西,所以我很感激你指出我错过了什么。也许我必须将每一行生成为一个单独的列表,然后制作一个数据框并打印数据框?
更新:我现在在包 catspec 中发现了 ctab(),它也在正确的轨道上。有趣的是,R 与 SPSS 中的 Ctables 没有一致的等价物,后者基本上是一种“制表”工具,就像用于调查研究的旧制表工具一样。ctab() 正在尝试,并且是令人钦佩的第一步......但你仍然不能用它来制作这张桌子(上图)。
r - 如何强制 R 在回归中使用指定的因子水平作为参考?
如果我在回归中使用二元解释变量,如何告诉 R 使用某个水平作为参考?
它只是默认使用某个级别。
与b {0, 1, 2, 3, 4}
. 假设我想使用 3 而不是 R 使用的零。
r - 为因素的每个组合(/交互)创建单独的线性模型
我正在尝试对我的数据框进行简单的线性回归,如下所示。实际的数据集有更多的因子和更多的预测变量(x)都试图预测 y。
请注意,对于 f1 和 f2 的每种组合,趋势都会有所不同。我想要做的是为 f1 和 f2 的每个组合构建一个 lm 模型,将其存储在某种列表中,然后当我调用预测时,我应该能够使用适当的模型并根据 x 预测 y。我想我应该使用 ldply 创建一个模型列表,如下图
这给出了一个错误,
另外,假设我将所有内容都放入列表中,之后如何使用 predict ?
编辑:我意识到我可以将指标变量用于建模本身的因素,但我想避免这种情况。
pandas - 如何从字符串列生成分类的熊猫 DataFrame 列?
我可以将熊猫字符串列转换为分类,但是当我尝试将其作为新的 DataFrame 列插入时,它似乎立即转换回 str 系列:
猜测这是因为 Categorical 没有映射到任何 numpy dtype;那么我是否必须将其转换为某种 int 类型,从而失去因子标签<->级别关联?存储级别<->标签关联并保留转换回来的能力的最优雅的解决方法是什么?(只需像这里一样存储为 dict ,并在需要时手动转换?)我认为Categorical 仍然不是 DataFrame 的一流数据类型,与 R 不同。
(使用 pandas 0.10.1、numpy 1.6.2、python 2.7.3 - 一切的最新 macports 版本)。
python - 如何将自定义列顺序(在分类上)应用于熊猫箱线图?
编辑:这个问题早在 2013 年就出现了 pandas ~0.13,并被版本 0.15-0.18 之间的 boxplot 的直接支持所淘汰(根据@Cireo 的最新回答;自从有人问到这个问题后,pandas 也大大改进了对分类的支持。)
我可以boxplot
在 pandas DataFrame 中获得一个薪水列...
...但是我不知道如何定义“类别”列上使用的索引顺序 - 我想根据另一个标准提供我自己的自定义顺序:
如何将我的自定义列顺序应用于箱线图列?(除了丑陋的用前缀来强制排序的列名)
'Category' 是一个字符串(真的,应该是一个 categorical,但这又回到了 0.13,其中 categorical 是一个三等公民)列有 27 个不同的值:['Accounting & Finance Jobs','Admin Jobs',...,'Travel Jobs']
. 所以它可以很容易地分解为pd.Categorical.from_array()
经检查,限制在 inside pandas.tools.plotting.py:boxplot()
,它在不允许排序的情况下转换列对象:
- pandas.core.frame.py.boxplot()是通过
- pandas.tools.plotting.py:boxplot() 实例化...
- matplotlib.pyplot.py:boxplot()实例化 ...
- matplotlib.axes.py:boxplot()
我想我可以破解一个自定义版本的 pandas boxplot(),或者深入到对象的内部。并提交增强请求。
r - 为多项式回归重塑数据
我目前正在学习多项式 logit 估计器,我想用它来估计包中的R
模型mlogit
。在广泛阅读该主题之后,很明显该过程中的一个重要步骤是使用该mlogit.data()
函数重塑数据。我的数据框包含以下信息:
satisfaction
:这是一个从 1(非常不满意)到 5(非常满意)的分类变量。education
: 个人受教育年限country
: 这是个人的原籍国average_income
: 这个国家的平均收入
这是数据框的可视化表示:
该mlogit()
功能似乎不喜欢这种形式。我试图用satisfaction
作为因变量和education
自变量来估计模型。
我怎样才能重塑它以使其发挥作用?
r - 从互斥虚拟变量创建分类变量
我的问题是关于先前回答的关于将多个虚拟变量组合成单个分类变量的问题的详细说明。
在之前提出的问题中,分类变量是由不互斥的虚拟变量创建的。就我而言,我的虚拟变量是互斥的,因为它们代表 2X2 受试者间因子设计中的交叉实验条件(这也有一个受试者内部组件,我没有在这里讨论),所以我不认为我做interaction
了什么需要做。
例如,我的数据可能如下所示:
我现在想制作组合不同类型条件的分类变量。例如,具有条件 A 和 B 值的人可能被编码为一个分类变量,而具有条件 C 和 D 值的人可能被编码。
现在,我正在使用ifelse()
语句来执行此操作,这简直就是一团糟(而且并不总是有效)。请帮忙!可能有一些非常明显的“更简单的方法”。
编辑:
我使用的命令种类ifelse
如下:
实际上,我每次都会合并 6-8 列,因此更优雅的解决方案会很有帮助。
r - How to convert continuous variable to discrete in R?
I have a variable which encodes group ID:
When I try to use it in ggplot2 for making boxplots I get an error
Continuous value supplied to discrete scale
At attempt to render data. Then I manually change at least one group ID in data to text everything works OK.
So, my question is: is where some easy way to change continuous variable, containing finite number of variants to discrete?
r - 为层次聚类准备分类数据
我想使用 R 对数据进行层次聚类,如下所示:
这应该意味着 L2 与 L1 和 L3 共享特征 W1,而特征 W2 存在于 L1 和 L3 中,但具有不同的值,并且在 L2 中缺失。(编辑L 是语言,W 是这些语言中的词干,值(p、r 等)描述了这些词如何在特定语言中派生出来。我相信一个词在不同的语言可能暗示共同的起源。当它丢失时,不清楚:它可能意味着什么,或者我的来源可能不完整,但我想我必须谨慎地假设第一个选项。最终目标是根据什么对语言进行分类茎存在于它们中,以及它们的行为方式。结束编辑)
您能否解释一下我如何转换这些数据以便能够对它们进行分类,并建议我应该使用什么相似度指数?