问题标签 [categorical-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1353 浏览

multivariate-testing - 使用 FactoMineR 使用 R 进行多因素分析 (MFA)

我在 FactoMineR 中遇到了 MFA 问题。我正在处理一个数据集,其中包含在番茄植物中测量的物理、化学和微生物连续变量,这些变量取自 2 种不同的处理方法和 3 个时间点。我已经容纳了这样的数据:

我将变量分类(前 2 个),然后其他 16 个是连续的。但是,我想分别处理这 2 个分类变量。所以我写了以下代码:

但是,它似乎不起作用。因此,我尝试了以下方法:

还有这个:

但我一直遇到同样的问题(“不方便的组定义”)。我可以做些什么来分别保留前 2 个分类组?我非常感谢您对如何正确运行模型的建议!

最好的祝愿,

艾玛

0 投票
1 回答
23688 浏览

r - R coxph() 警告:Loglik 在变量之前收敛

我在使用 coxph() 时遇到了一些麻烦。我有两个分类变量:Sex 和 Probable Cause,我想将它们用作预测变量。性别只是典型的男性/女性,但可能的原因有 5 个选项。我不知道警告消息有什么问题。为什么置信区间从 0 到 Inf 且 p 值如此之高?

这是代码和输出:

谢谢

0 投票
1 回答
2031 浏览

r - 将拟合的 Weibull 分布 (fitdistr) 添加到 geom_bar (ggplot2) 分类图中

我从 ggplot2 中的人口普查数据创建了年龄与人口规模(按性别)的条形图。同样,我使用了 fitdistrplus 包中的“fitdist”函数来导出归一化(通过所有年龄箱中的最大观察人口)人口数据的 Weibull 参数。

我想做的是将绘制的数据与分布叠加为线图。我努力了

加上其他众多(不成功的)策略。

任何可以提供的帮助将不胜感激!请找到下面附加的语法:

数据结构

0 投票
3 回答
2901 浏览

r - 如何直接使用栅格属性表来绘制栅格图例并仅显示栅格中显示的类的图例?

我想使用栅格属性表信息来创建栅格的图例,例如栅格1,并仅显示栅格中显示的类的图例。我建立了一个例子来解释我想要得到什么。

1/ 构建栅格

2/ 添加栅格属性表

3/ 绘制栅格1

我想用legend =rat$legend链接到ratser属性表的栅格属性替换参数。我尝试了不同的组合,levels()例如,c(levels(r)[[1]][1])但我生成了一个列表,而不是在 legend 参数中不可用的字符。

4/ 将栅格裁剪并绘制到只有 2 个类别的部分(这里是右下方范围的 4 个像素)2

对于第二个图,我想只自动显示光栅2上显示的类的图例。

带有图例的栅格

带有图例的裁剪栅格


这是 Roman 4提出的解决方案。 Roman提出的解决方案

0 投票
1 回答
204 浏览

r - 如何识别相似的旅程模式并将它们分组到 R 中?

我正在尝试找到一种方法来相互比较 1000 多个汽车旅程,以便对相似的旅程进行聚类。(最好在 R 中)

在下面的示例中,每一行是一个人在某一天的旅程。

每列代表汽车停止的一个点。不考虑时间,只考虑旅行的顺序。例如 stop1、stop2、stop3 ... stop10

数据将包含 NA,因为并非所有旅程都有 10 个站点。

示例:矩阵(row.names 代表一个独特的人):

我是聚类的新手,但研究了不同的类型(Kmeans,层次结构)。

我曾尝试使用热图和平行坐标,但它们并没有产生我正在寻找的视觉效果 - 即,看到超过 1000 次以上旅程的组并不容易,而且我认为它不适用于可能类似于的旅程其他。

我希望有人可以帮助提供一个示例,说明他们在哪里有类似的聚类数据并解释它,以便初学者清楚吗?

非常感谢

0 投票
0 回答
2965 浏览

r - 距离矩阵中的分类特征

我正在计算两个特征向量之间的余弦相似度,并想知道是否有人可以巧妙地解决以下关于分类特征的问题。

目前我有(示例):

效果很好。

但是假设我想添加一个分类变量,例如城市,以生成一个特征,当两个城市相等时为 1,否则为 0。

在这种情况下,示例特征向量将是:

我想知道是否有一种巧妙的方法可以在函数中动态生成最后一个特征的成对相等性,以使其保持矢量化实现?

我已经尝试预处理为每个类别制作二进制标志,这样上面的例子就会变成这样:

这可行,但问题是这意味着我必须对每个变量进行预处理,在某些情况下,我可以看到类别的数量变得非常大。当我想要生成一个返回 1 表示相等而返回 0 的特征时,这似乎相当昂贵/效率低下(假设这里存在复杂性,因为它本质上是一个依赖于两条记录并在它们之间共享的特征)。

我可以看到的一个解决方案是只编写一个循环来构建每对特征向量(我可以构建一个特征,例如 [is_same_city]=1/0 并在我们相等时为每个向量设置为 1,否则为 0)和然后获得距离-但是当我尝试扩展时,这种方法会杀死我。

我希望我的 R 技能还不够完善,并且有一个巧妙的解决方案可以满足大多数情况...

任何建议都非常欢迎,谢谢

0 投票
2 回答
6615 浏览

r - 如何为数据挖掘过程对数据进行分类?

我正在使用该apriori功能进行数据挖掘过程。此功能仅适用于分类数据,没有值,只有文本。我的数据集满足这些要求,因为我有五个分类变量,没有数值,只有文本(因此变量“性别”分为“女性”和“男性”)

如果我现在尝试该apriori()功能,我会收到以下错误:

错误asMethod(object)

尽管我的数据看起来是分类的,但 R 并不知道它是分类的。例如,如何使用 as.factor 函数对我的数据进行正确分类,以便 apriori 函数起作用?

0 投票
1 回答
12682 浏览

r - 马赛克图,每个框中都有标签,显示所有观测值的名称和百分比

我想在图中创建一个带有标签的马赛克图(R 包 vcd,参见例如http://cran.r-project.org/web/packages/vcd/vignettes/residual-shadings.pdf )。标签应显示各种因素的组合或某些自定义标签以及此类别组合中总观察值的百分比(参见例如http://i.usatoday.net/communitymanager/_photos/technology-live/2011/07 /28/nielsen0728x-large.jpg,尽管这不是马赛克图)。我怀疑像 labeling_values 函数之类的东西可能在这里发挥作用,但我不能完全让它发挥作用。

以对非统计学家友好的方式用分类数据表示两个变量的替代方法也受到欢迎,并且是可接受的解决方案。

0 投票
1 回答
399 浏览

r - R - 来自 descr 包的修改马赛克图

我有一个db包含 2 个分类变量的数据框:varA有 4 个级别(0123),varB有 2 个级别(yesno)。varB没有级别 0 的值varA

我使用包创建了一个列联表CrossTabledescr然后使用以下plot函数创建了一个马赛克图:

我得到了这个情节:

马赛克图

我想从情节中消除 0 级。我还想添加 2 个 y 轴,一个在图的左侧,比例从 0 到 1,一个在右侧,比例从 1 到 0。

你可以帮帮我吗?

0 投票
0 回答
793 浏览

r - 在 R 中使用 softImpute 估算缺失数据

我正在尝试估算缺失值,但在处理分类变量时遇到问题。该命令softImpute计算缺失值,但它们也会变成分类变量,这对于分析来说是不够的。对于缺失值,我做了以下

但是,当我查看分类变量时,它们是小数点

原来是

是否有某种方法可以估算分类变量的缺失值?I 处理分类变量中缺失值的任何其他建议也会有很大帮助。