问题标签 [categorical-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1489 浏览

r - Categorizing Data frame with R

I have a following sample code to make one data frame containing information for more than 1 ID. I want to sort them by defined categories. In which I want to see the percentage change at specific (given time for e.h here t=10) with respect to its baseline value and return the value of that found category in output. I have explained detailed step of my calculation below.

My desired Calculation

Desired Output

Can anybody help me in this.I do understand the flow of my computation but not awre of efficient way of doing it as i have so many ID in that data frame. Thank you

0 投票
3 回答
268 浏览

r - R:如何折叠数据框中有序因子的多个观察值?

免责声明:我不确定“崩溃”是否适合此操作。如果有更合适的术语,我会全力以赴。

我有数百名患者随着时间的推移多次观察的症状严重程度数据。严重性是按顺序定义的。这是一个简化的示例:

生成的数据框如下所示:

我想创建一个新列,其中包含为每个 ID 观察到的最严重症状(即有序因子的最高级别),如下所示:

从那里,我可以轻松地创建这个数据框的子集,其中包括,对于每个 ID,最近观察的时间和研究期间报告的最严重症状:

有什么想法吗?

0 投票
3 回答
13664 浏览

scala - 如何使用 Scala 运行具有分类特征集的 Spark 决策树?

我有一个具有相应 categoricalFeaturesInfo 的功能集:Map [Int,Int]。但是,对于我的生活,我无法弄清楚我应该如何让 DecisionTree 类工作。它不会接受任何东西,而是接受 LabeledPoint 作为数据。但是,LabeledPoint 需要 (double, vector) ,其中向量需要双精度值。

我得到的错误:

到目前为止我的资源: 树配置、 决策树、 标记点

0 投票
2 回答
3009 浏览

r - 为分类变量的组合生成箱线图

我将如何执行以下操作?

在单个图中,我想创建多个箱线图,每个 X 变量是下面显示的分类变量的组合。

0 投票
1 回答
295 浏览

r - 如何在 plot.loglm 图中指定每个变量位置(图边)

我有以下对数线性模型。

在 plot 命令中,如何指定将在 1 到 4 的哪个绘图边中绘制哪些变量?plot.loglm 命令如何选择哪个变量将绘制在哪一侧?

pbible回答后更新#1:

只是为了说明另一个例子。我有模型

这导致了马赛克图在此处输入图像描述。在该图中,变量、PremaritalSex和分别位于边 1、2、3 和 4。MaritalStatusExtramaritalSexGender

我的问题是:如何绘制相同的对数线性模型(不要更改分析)但在结果图的第Gender2 侧和MaritalStatus第 4 侧有?

更新#2: mosaic尊重变量的输入顺序(第一个变量在第 2 面、第 2 面->第 3 面、第 3 面->第 4 面、第 4 面->第 1 面)

例如这两个地块:

但是plot.loglm不尊重输入变量的顺序。无论变量(加法模型)的顺序如何,它都会产生相同的图。例如,获得的 2 个地块是相同的

0 投票
1 回答
2481 浏览

matlab - 在 Matlab 中回归分类变量

我有一个包含 12 列和 20000 行的单元格类型变量。我称之为总:

我从那里得到我的因变量和自变量:

然后我对它们进行回归。考虑到我的因变量 Y1 是二进制的,而我的自变量 X1也是一个分类变量,我使用以下代码,但仍然不确定它是否正确。

然后我添加更多的假人并尝试相同的代码:

但现在它给了我很多错误:

有人可以帮助我吗?谢谢

0 投票
1 回答
314 浏览

r - R:如何将来自多个有序因子的数据汇总为一个变量

我有代表不同条件下患者哮喘症状严重程度的数据。严重性变量是有序因子,都具有相同的级别(轻度 < 中度 < 重度)。这是一个简化的示例:

生成的数据框如下所示:

我正在尝试创建一个“总体严重程度”变量,其中患者的总体严重程度 = 三个类别(白天、睡眠和活动)中报告的最严重症状。也就是说,“整体”等于“白天”、“睡眠”和“活动”中的最高级别。结果将如下所示:

我想在不写一些大而笨重的for循环的情况下做到这一点,但我不知道怎么做。我想也许我可以用 来做到这一点ave(),但似乎不能同时处理多个变量:

是否有可以执行此操作的应用功能?

0 投票
1 回答
28188 浏览

r - 如何在 R 中制作包含两个分类变量的箱线图?

我想制作一个箱线图,显示花费在行为上的时间(警报)如何受两个变量(期间 = 早上/下午和访客级别 = 高/低)的影响。

“警报”是一组 12 个数字,显示清醒所花费的时间量,其他两个数字是重要的分类变量。我看过其他例子,但似乎没有一个适合这类问题。

我知道我正在寻找的图表上会有 4 个箱线图......据说

  • PeriodMorning+Vis.LevelHigh
  • PeriodMorning+Vis.LevelLow
  • PeriodAfternoon+Vis.LevelHigh
  • PeriodAfternoon+Vis.LevelLow

在 x 轴上。

任何帮助都会很棒!

0 投票
1 回答
2004 浏览

r - R将分类数据更改为虚拟变量

我有一个多变量数据框,想将里面的分类数据转换为虚拟变量,我使用了 model.matrix,但它不太管用。请参考以下示例:

我没有使用的原因model.matrix(~age+sex+bloodtype+bodyweight)[,-1]是因为这只是一个玩具示例。在真实数据中,我可以有数十或数百列。我不认为在这里输入所有变量名是个好主意。

谢谢

0 投票
1 回答
25 浏览

r - 因子水平如何根据原始值排序?

如果我从数值向量创建一个因子,因子类别是否会按现在被视为类别的值自动排序?

即 [1,4,7,3,2] -> 类别 = {1,2,3,4,7}