问题标签 [categorical-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
multivariate-testing - 使用 FactoMineR 使用 R 进行多因素分析 (MFA)
我在 FactoMineR 中遇到了 MFA 问题。我正在处理一个数据集,其中包含在番茄植物中测量的物理、化学和微生物连续变量,这些变量取自 2 种不同的处理方法和 3 个时间点。我已经容纳了这样的数据:
我将变量分类(前 2 个),然后其他 16 个是连续的。但是,我想分别处理这 2 个分类变量。所以我写了以下代码:
但是,它似乎不起作用。因此,我尝试了以下方法:
还有这个:
但我一直遇到同样的问题(“不方便的组定义”)。我可以做些什么来分别保留前 2 个分类组?我非常感谢您对如何正确运行模型的建议!
最好的祝愿,
艾玛
r - R coxph() 警告:Loglik 在变量之前收敛
我在使用 coxph() 时遇到了一些麻烦。我有两个分类变量:Sex 和 Probable Cause,我想将它们用作预测变量。性别只是典型的男性/女性,但可能的原因有 5 个选项。我不知道警告消息有什么问题。为什么置信区间从 0 到 Inf 且 p 值如此之高?
这是代码和输出:
谢谢
r - 将拟合的 Weibull 分布 (fitdistr) 添加到 geom_bar (ggplot2) 分类图中
我从 ggplot2 中的人口普查数据创建了年龄与人口规模(按性别)的条形图。同样,我使用了 fitdistrplus 包中的“fitdist”函数来导出归一化(通过所有年龄箱中的最大观察人口)人口数据的 Weibull 参数。
我想做的是将绘制的数据与分布叠加为线图。我努力了
加上其他众多(不成功的)策略。
任何可以提供的帮助将不胜感激!请找到下面附加的语法:
数据结构
r - 如何识别相似的旅程模式并将它们分组到 R 中?
我正在尝试找到一种方法来相互比较 1000 多个汽车旅程,以便对相似的旅程进行聚类。(最好在 R 中)
在下面的示例中,每一行是一个人在某一天的旅程。
每列代表汽车停止的一个点。不考虑时间,只考虑旅行的顺序。例如 stop1、stop2、stop3 ... stop10
数据将包含 NA,因为并非所有旅程都有 10 个站点。
示例:矩阵(row.names 代表一个独特的人):
我是聚类的新手,但研究了不同的类型(Kmeans,层次结构)。
我曾尝试使用热图和平行坐标,但它们并没有产生我正在寻找的视觉效果 - 即,看到超过 1000 次以上旅程的组并不容易,而且我认为它不适用于可能类似于的旅程其他。
我希望有人可以帮助提供一个示例,说明他们在哪里有类似的聚类数据并解释它,以便初学者清楚吗?
非常感谢
r - 距离矩阵中的分类特征
我正在计算两个特征向量之间的余弦相似度,并想知道是否有人可以巧妙地解决以下关于分类特征的问题。
目前我有(示例):
效果很好。
但是假设我想添加一个分类变量,例如城市,以生成一个特征,当两个城市相等时为 1,否则为 0。
在这种情况下,示例特征向量将是:
我想知道是否有一种巧妙的方法可以在函数中动态生成最后一个特征的成对相等性,以使其保持矢量化实现?
我已经尝试预处理为每个类别制作二进制标志,这样上面的例子就会变成这样:
这可行,但问题是这意味着我必须对每个变量进行预处理,在某些情况下,我可以看到类别的数量变得非常大。当我想要生成一个返回 1 表示相等而返回 0 的特征时,这似乎相当昂贵/效率低下(假设这里存在复杂性,因为它本质上是一个依赖于两条记录并在它们之间共享的特征)。
我可以看到的一个解决方案是只编写一个循环来构建每对特征向量(我可以构建一个特征,例如 [is_same_city]=1/0 并在我们相等时为每个向量设置为 1,否则为 0)和然后获得距离-但是当我尝试扩展时,这种方法会杀死我。
我希望我的 R 技能还不够完善,并且有一个巧妙的解决方案可以满足大多数情况...
任何建议都非常欢迎,谢谢
r - 如何为数据挖掘过程对数据进行分类?
我正在使用该apriori
功能进行数据挖掘过程。此功能仅适用于分类数据,没有值,只有文本。我的数据集满足这些要求,因为我有五个分类变量,没有数值,只有文本(因此变量“性别”分为“女性”和“男性”)
如果我现在尝试该apriori()
功能,我会收到以下错误:
错误asMethod(object)
:
尽管我的数据看起来是分类的,但 R 并不知道它是分类的。例如,如何使用 as.factor 函数对我的数据进行正确分类,以便 apriori 函数起作用?
r - 马赛克图,每个框中都有标签,显示所有观测值的名称和百分比
我想在图中创建一个带有标签的马赛克图(R 包 vcd,参见例如http://cran.r-project.org/web/packages/vcd/vignettes/residual-shadings.pdf )。标签应显示各种因素的组合或某些自定义标签以及此类别组合中总观察值的百分比(参见例如http://i.usatoday.net/communitymanager/_photos/technology-live/2011/07 /28/nielsen0728x-large.jpg,尽管这不是马赛克图)。我怀疑像 labeling_values 函数之类的东西可能在这里发挥作用,但我不能完全让它发挥作用。
以对非统计学家友好的方式用分类数据表示两个变量的替代方法也受到欢迎,并且是可接受的解决方案。
r - R - 来自 descr 包的修改马赛克图
我有一个db
包含 2 个分类变量的数据框:varA
有 4 个级别(0
、1
、2
、3
),varB
有 2 个级别(yes
、no
)。varB
没有级别 0 的值varA
:
我使用包创建了一个列联表CrossTable
,descr
然后使用以下plot
函数创建了一个马赛克图:
我得到了这个情节:
我想从情节中消除 0 级。我还想添加 2 个 y 轴,一个在图的左侧,比例从 0 到 1,一个在右侧,比例从 1 到 0。
你可以帮帮我吗?
r - 在 R 中使用 softImpute 估算缺失数据
我正在尝试估算缺失值,但在处理分类变量时遇到问题。该命令softImpute
计算缺失值,但它们也会变成分类变量,这对于分析来说是不够的。对于缺失值,我做了以下
但是,当我查看分类变量时,它们是小数点
原来是
是否有某种方法可以估算分类变量的缺失值?I 处理分类变量中缺失值的任何其他建议也会有很大帮助。