问题标签 [contingency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
592 浏览

r - 在 R 中编译列联表之前将调查权重应用于数据

我正在分析的调查样本不是随机选择的,因此我需要应用权重向量以使调查结果代表总体。我已wtd.table()成功使用(来自 gmodels)创建频率表,但现在想创建一个列联表来比较两个分类变量并进行 Chi-sqrd 测试。我正在努力寻找合适的功能。包中的svytable()函数survey听起来很有希望,但我看不出应该在哪里输入权重向量。我是 R 新手。有人可以解释如何使用svytable()或建议替代方法吗?

0 投票
1 回答
112 浏览

r - R 是否能够在不将整个文件放入 RAM 的情况下计算大文件上的列联表?

让我解释一下这个问题:

我知道函数tablextabs计算列联表,但他们需要一个始终存储在 RAM 中的 data.frame。尝试在大文件(比如 20 GB,我必须处理的最大值)上执行此操作时真的很痛苦。

另一方面,SAS 完全能够做到这一点,因为它逐行读取文件,并在此过程中更新结果。因此,RAM 中只有一条线,这更容易接受。

有时,我用特殊的 Python 程序做与 SAS 相同的事情,当我不得不做更复杂的事情时,要么我不知道如何在 SAS 中做,要么认为它太麻烦了。Python 语法和集成功能(字典、正则表达式......)弥补了它的弱点(主要是速度,但是当读取 20 GB 时,速度无论如何都会受到硬盘驱动器的限制)。

然后我的问题是:我想知道在 R 中是否有包可以执行此操作。我知道可以像在 Python 中那样逐行读取文件,但是在 a 上计算简单的统计数据(例如列联表)大文件是一项如此基本的任务,我觉得应该有一些或多或少的“集成”功能在统计包中完成。

请告诉我是否应该在“交叉验证”中提出这个问题。我有一个疑问,因为它更多的是关于软件而不是统计数据。

0 投票
1 回答
1425 浏览

r - R 中的 McNemar 检验 - 稀疏数据

我正在尝试通过 R 运行一个大小合适的数据集,使用 McNemar 测试来确定我在配对样本上一种方法检测到的对象的比例是否存在差异。我注意到当我有一个 2x2 表时,测试工作正常

但如果我尝试运行类似的东西:

它错误地告诉我''x'和'y'必须具有相同数量的级别(至少2)'。

我应该澄清一下,我已经尝试使用宽数据集上的 table 函数将宽数据转换为 2x2 矩阵,而不是像上面那样出现,它否定了最后一列,给了我。

我还使用 factor object 选项运行了 mcnemar.test,这给了我同样的错误,所以我假设它做了类似的事情。我想知道是否有一种方法可以强制表函数生成第二列,尽管它们没有属于这些类别中的任何一个的观察结果,或者是否有一种方法可以使测试忽略这些缺失的数据?

0 投票
0 回答
46 浏览

r - R:在 table() 中打印省略的 0 - 列联表

我通过循环 table() 使用大量列联表。简单的问题:输出中省略了仅包含 0 的列。可以使用 table() 进行调整吗?

例子:

数据

我得到的输出:

我需要的输出:

谢谢。

0 投票
2 回答
264 浏览

r - 在表格中查找第三个四分位数以上的频率

我有一个大数据框架(对 57 个变量的 +239k 观察),其中包含一些疾病描述和针对不同年龄段人群的这些疾病的药物。我想在每种疾病描述的使用频率最高的四分之一中找到这些药物。

为了制作一个可重复的示例,我创建了一个 1000 个观察数据框:

我可以生成一个频率表

然后我可以为每个年龄组生成一个数据框

然后找到每种疾病频率的第三个四分位数:

我可以比较并获得每种疾病在第三四分位数以上的药物

我可以得出结论,这med 3是疾病 A 的最佳选择,依此类推(我正在循环提取该信息)。然后我返回并重复 b、c 组的过程......这对于我拥有的数据量来说几乎是不可能的(疾病大约是 4200 级,药物大约是 1150 级)。

我很确定应该有一种不同的、更简单的方法来实现这一点。我将不胜感激有关更好途径的提示。

0 投票
2 回答
75 浏览

r - 列联表一次针对多个表

我有一个如下表:

我想将第 1 列的频率与所有频率相比较,得到如下结果:

有可能吗?我尝试过table()ftable()但输出与我的预期不符。

0 投票
1 回答
904 浏览

shiny - 如何为闪亮的应用程序制作列联表

如何在我的 r studio 闪亮应用程序中开发列联表。

0 投票
1 回答
133 浏览

r - Building a contingency table

I have a data like this:

and I want to build a contingency table like this:

Meaning: According to column A, for each two values of column B mark + 1 in the specific Contingency table.

Can you help me do this?

0 投票
2 回答
13224 浏览

r - 如何使用 xtabs 创建频率表

xtabs生成漂亮的表格,但我想知道是否有办法让它显示行总计和列总计。此外,它是否有可能显示某种频率,即 N/行总数和 N/列总数?

我已经尝试过包中的CrossTable功能,gmodels效果很好。但是,它似乎只适用于 2 个变量,而我想一次比较 2+ 个变量。

0 投票
1 回答
190 浏览

r - 在列联表中包含所有因素组合以创建平方概率表/矩阵

我正在尝试从列联/频率表创建一个 9 x 9 概率矩阵。

它包含一对值(x1,x2)转换为一对值的频率(y1,y2)x1并且y1具有、 或的值A,并且具有、、OR的值。BCx2y2DEF

所有xy对之间的转换都不存在。但是,我希望这些“缺失”的转换在表格/矩阵中以零的形式出现,以使其成为方形 (9x9) 以用于其他分析。

上面的结果DFM,没有使用factoronx并且y具有正确的值,但当然包括完整的 9x9 转换集。期望的结果DFMd如下。

但是,当我包含factoredxy时,产生的结果是不希望的,引入了NA和的值。Inf

有没有办法使用“缺失”因素来评估table/colSums(table)并获得所需的结果?