问题标签 [chi-squared]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Chi-squared goodness of fit test in R
I have a vector of observed values and also a vector of values calculated with model:
Now I'm using the Chi-squared goodness of fit test to see how well my model performs. I wrote the following:
but it doesn't work. Can you help me with this?
python - Python中来自Chi sq检验统计的P值
我已经计算了一个测试统计量,该统计量分布为一个自由度为 1 的卡方,并且想找出使用 python 对应的 P 值。
我是 python 和数学/统计新手,所以我想我想要的是 SciPy 中 chi2 分布的概率密度函数。但是,当我这样使用它时:
然而,一些谷歌搜索和一些懂数学但不懂python的同事说它应该是0.05。
有任何想法吗?干杯,戴维
r - 在 R 中,当调查长度不同时,如何计算卡方检验中的预期值?
我正在做一项行为研究,我想看看一个物种在三个时期之间是否表现出与预期显着不同的反应。该物种有 47 次独立观察,每次有 3 个时段,总观察时间为 8.6 分钟。第一节为 3 分钟,第二节为 0.6 分钟,第三节为 5 分钟。在每个时期,动物可以做出积极或消极的反应。在第一阶段,有两个积极的回应(在 47 个观察中;45 个消极),在第二阶段,47 个回应中有 13 个是积极的,在第三阶段,47 个回应中有 14 个是积极的。
因此,我正在尝试运行卡方检验,在其中调整零假设中的概率以纠正时段之间的时间差异,但我认为我做的不正确。
我相当肯定,在这种情况下,我对这些预期值的零假设是不正确的,但我不确定如何正确调整它。
r - 排除交叉表中的值
可能重复:
R 过滤掉一个子集
我有一个R数据集。在这个数据集中,我希望使用包gmodels
为两个分类变量创建一个交叉表,然后chisq.test
在它们上运行。这两个变量是witness
和agegroup
。witness
由值为 1,2 和 9 的观测值agegroup
组成。由值 1,2 组成。我希望排除值 if witness=9
, or/and a 3rd variable EMS=2
from the table 但我不确定如何继续。
...所以我的问题是,我怎样才能在条件witness!=9
和EMS!=2
python - 使用 scikit_learn 和特征矩阵的奇怪卡方结果
我正在使用 scikit learn 计算基本卡方统计数据(sklearn.feature_selection.chi2(X, y)):
我有 1500 个样本,45 个特征,4 个类。输入是一个 1500x45 的特征矩阵和一个包含 1500 个分量的目标数组。特征矩阵不是稀疏的。当我运行程序并打印包含 45 个组件的数组“chisq”时,我可以看到组件 13 具有负值且 p = 1。这怎么可能?或者这是什么意思,或者我正在做的大错误是什么?
我附上 chisq 和 p 的打印输出:
arrays - 使用二进制比较的数据帧上的 R chisq.test()
我想对尺寸(50x752)的数据框进行 chisq.test 。我想为所有列的所有可能的成对比较获取 pvalues(通过多次测试调整)。最后,我想取回一个矩阵 (50x50) 以生成调整后的 chisq pvalues 的热图。这是我目前所做的,但这远非理想。
Step1:进行成对比较
Step2:将输出表转换为矩阵
但这效果不佳,因为我没有在最终矩阵中镜像 pvalue,并且我必须操纵第一个函数的输出以使对角线填充为 0(将列与自身进行比较时)。对你的帮助表示感谢!
r - 如何转换数据框以对其运行卡方测试?
假设我有一个看起来像这样的数据框。它基本上是一个词频表。如何将其转换为表格,以便对其进行独立性卡方检验?
statistics - jpeg 文件中的字节分布
在观察压缩数据时,我期望一个几乎均匀分布的字节流。当使用卡方检验来测量分布时,我得到了这个结果,例如 ZIP 文件和其他压缩数据,但不是 JPG 文件。最近几天我一直在寻找原因,但我找不到任何原因。
在计算 JPG 的熵时,我得到了一个很高的结果(例如 7,95 位/字节)。我认为熵和分布之间一定存在联系:熵很高,当每个字节出现的概率几乎相同时。但是当使用卡方时,a 得到的 p 值约为 4,5e-5...
我只是想了解不同的分布如何影响测试结果......我以为我可以用两个测试来测量相同的属性,但显然我不能。
非常感谢您的任何提示!汤姆
feature-selection - 互信息和卡方关系
我使用以下代码来计算情绪分析中特征选择的互信息和卡方值。
其中 N11,N01,N10 和 N00 是我的数据集中两个特征的观察频率。
注意:我正在尝试计算 2 个特征之间的互信息和卡方值,而不是特定特征和类之间的互信息。我这样做是为了知道这两个功能是否以任何方式相关。
我使用的卡方公式是:
其中 E00,E01,E10,E11 是预期频率。
根据互信息的定义,低值应该意味着一个特征没有给我关于另一个的信息,根据卡方的定义,卡方的低值意味着两个特征必须是独立的。
但是对于某些两个特征,我得到了 0.00416 的互信息分数和 4373.9 的卡方值。这对我来说没有意义,因为互信息分数表明这些特征并不密切相关,但卡方值似乎足够高,表明它们也不是独立的。我想我的解释有问题
我为观察到的频率得到的值是
python - 使用lmfit在python中进行卡方最小化
lmfit
我正在尝试使用 python 和模块进行多参数拟合。我一直按照此处显示的示例作为我的代码的基础。据我了解代码,我应该能够进行最小二乘拟合,只要我正确定义我的目标函数(给出残差)并为其提供正确的参数。
这是我目前的目标函数:
fit_model(args*)
方法定义为
这给了我我期望得到的东西:numpy.ndarray
我的数据的长度。我遇到的问题是,当我尝试最小化卡方拟合时
我收到错误消息:
我试图从源代码中弄清楚这意味着什么lmfit
,但这有点超出我的理解。有谁知道我可以如何解决这个错误?
谢谢