问题标签 [chi-squared]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
testing - 在萨辛普森悖论中对独立性进行卡方检验
我想了解学生在特定考试中的表现与辍学率之间是否存在关系。我有一个 2×2 矩阵,其中变量 Level in test 取值 level 1 和 level 2,变量 dropout 的值不是 active 和 active。(你可以说1级=通过测试,2级=未通过)。
我可以看到我对“辛普森悖论”这个术语有疑问,因为我知道教职员工的每一次教育都有一个很高的 p 值,这表明考试水平和辍学之间没有关系。但是当我对数据进行分组并对整个教师进行分析时,我得到一个低 p 值,表明变量之间存在显着的关系。?? 我试图阅读有关辛普森悖论的信息,但我似乎没有得到如何处理这个问题的信息?我读过一个地方不应该对聚合数据执行测试,但那不是真的吗?
我真的希望有人能帮助我!
亲切的问候玛丽亚
r - R中的标准卡方检验?
我在单个拷贝区域中有 4 种基因型的观察计数样本。我想要做的是计算这些基因型的等位基因频率,然后使用 R 中的卡方检验这些频率与 25%:25%:25%:25% 的预期值显着偏离。
到目前为止,我得到了:
接下来我得到总数:
现在频率:
我现在迷路了。我想知道 af1、af2、af3 和 af4 是否显着偏离 0.25、0.25、0.25 和 0.25
我如何在 R 中做到这一点?
谢谢你,阿德里安
编辑:
好吧,我正在按照建议尝试 chisq.test() :
试图告诉我的警告信息是什么?为什么近似值不正确?
为了测试这种方法,我选择了远离预期 0.25 的值:
在这种情况下,H0 仍然没有被拒绝,即使这些值与预期的 0.25 值相差甚远。
python - 我们可以使用python为卡方检验生成列联表吗?
我正在使用 scipy.stats.chi2_contingency 方法来获取卡方统计信息。我们需要传递频率表,即列联表作为参数。但是我有一个特征向量,想自动生成频率表。我们有这样的功能吗?我目前正在这样做:
其中数据系列和目标系列是列值,另外两个是指标的名称。任何人都可以帮忙吗?谢谢
python - 我们如何在 scipy.stats.anderson_ksamp 中传递两个数据集?谁能举个例子解释一下?
安德森函数只要求一个参数,应该是一维数组。所以我想知道如何传递两个不同的数组进行比较?谢谢
distribution - 我怎么知道 fitdistrplus 包的 fitdist 函数中“start”参数的参数的初始值是什么?
我正在学习如何对我的数据进行拟合分布,我正在使用 fitdistrplus 包的 fitdist 函数,但是对于卡方分布,我需要给出一个带有参数初始值的命名列表...
[1] 0.6666667 1.3666667 1.2833333 1.3666667 1.5833333 1.5333333 0.6666667 [8] 3.5333333 1.4166667 2.4500000 0.3333333 0.7666667 1.6000000 0.3833333 [15] 0.2666667 >1.8000000 3.2166667 1.3166667 2.4333333 2.2833333 2.3166667 [22] 4.1000000 1.0500000 0.3500000 >1.3166667 2.8333333 0.3166667 1.8333333 [29] 1.4666667 1.9833333 3.3666667 1.7000000 2.0666667 >1.4333333 0.5666667
错误 en fitdistr(surface.na.omit, "chi-squared") : 'start' 必须是命名列表
start 是一个命名列表,给出命名分布参数的初始值。对于某些计算合理起始值的分布,可以省略此参数>(请参阅详细信息),如果使用封闭公式估计参数,则不会考虑此参数。
但我不知道如何计算或找到这个值......有人可以解释一下吗?:/ 太感谢了...
通风
r - R 中的 Prop.Test:如何纠正大量观察结果
这不是真正的编码问题,而是更多的统计问题。
我正在对许多科目的多个比例进行比例测试。
例如,主题 1 将具有多个比例(多个“每次总试验成功”),主题 2 将具有多个比例。对于每个主题,我们正在测试所有这些比例是否相同。对于每个受试者,每个总试验的成功次数有多个比例。比例可以从 60 次中的 30 次成功到 1000 次中的 300 次成功(只是为了显示每个主题的试验和成功的范围)。此外,对于每个主题,可能有不同数量的比例。受试者 1 可以有 50 个比例,而受试者 2 只能有 2 个。我们的想法是,我们试图测试每个受试者的所有比例是否相同,然后如果它们不同则拒绝。
但是,我意识到在使用 prop.test 时,具有更多比例的受试者将比只有 2 个比例的受试者具有更显着的 p 值。我想知道是否有办法以不同的方式解决这个问题。我可以做的任何类型的更正,或者考虑到职位的数量。
任何建议都会有所帮助。
r - 在 R 中使用缺失数据循环学生 T 检验和卡方
我正在尝试使用 R 运行学生 t 检验和带有大型数据集的卡方检验。由于我对 R 相当陌生,我的经验不足一直阻碍我自己的代码取得很大成功。
两个数据集都缺少数据,看起来像这样:
由于它是一个大型数据集,我正在尝试创建一个代码,我可以在其中将assayX 与所有assayY 进行比较。我希望为第一个数据集创建一个学生 t 检验循环,并为第二个数据集创建一个卡方循环。我之前成功地为相关分析创建了一个循环代码,所以我的代码基于这个想法。
第一个代码的问题是:无效的变量 y
第二个代码的问题是:x 和 y 必须具有相同的长度
我在这里和那里做了一些小的调整,只是得到了不同类型的错误,比如没有足够的“y”观察等等。我一直主要使用这个网站来弄清楚 R 是如何工作的,所以我希望你们能为新人提供一个聪明的小解决方案。
python - python和R中卡方检验的不同p值
作为一个普通的 R 用户,我正在学习使用 python 进行分析,我从卡方开始并做了以下工作:
R
Python
对于test1
,我很满意,因为 python 和 R 的测试结果相似,但test2
事实并非如此,因为 R 有参数correct
,所以我将其从默认值更改,生成的 p 值不一样。
我的代码有什么问题吗?我应该“相信”哪一个?
更新01
感谢您的反馈。我知道卡方检验不应该用于值小于 5 的单元格,我应该使用 Fisher 精确检验,我担心的是为什么 R 和 Python 给出的 p 值差异如此之大。
python - Python中的卡方检验
我想在 Python 中运行卡方检验。我已经创建了代码来执行此操作,但我不知道我所做的是否正确,因为 scipy 文档非常稀疏。
背景第一:我有两组用户。我的零假设是,两组中的人是否更有可能使用台式机、移动设备或平板电脑没有显着差异。
这些是在两组中观察到的频率:
这是我的代码使用scipy.stats.chi2_contingency
:
这给了我一个 p 值2.02258737401e-38
,这显然很重要。
我的问题是:这段代码看起来有效吗?特别是,鉴于我拥有的数据,我不确定是否应该使用scipy.stats.chi2_contingency
or scipy.stats.chisquare
。