问题标签 [statistical-test]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
glm - 如何在 R 中使用 glm() 函数或贝叶斯网络对二项式数据进行等价测试?
有没有办法使用 glm() 函数或贝叶斯网络来检查两个二项式数据是否相等。更重要的是,我有两个二项式(成功 = 1 和失败 = 0)数据集,并打算应用统计测试来显示它们是否在统计上等效。第一个数据集 (x) 包括大约 164 个数据点,其中 58 个为“1”,其余为“0”。第二个数据集/组 (y) 由 280 个数据点组成,其中 113 个为“1”,其余为“0”。所以我的问题是如何用上述方法应用等价测试?我可以在 r 中使用任何功能或包来应用测试吗?
python-3.x - Python中的多项式测试与met模块
我正在尝试在 Python 中进行多项式测试——在 R 中类似的是:
我正在使用 met 模块。但是我得到一个例外。这是代码:
python - R 和 Python 中的 G 测试(比例的两个样本测试)
我在 R 和 Python 中进行 G 测试,我得到不同的结果,我在 Python 中得到的结果是错误的。不知何故,我误用了公式。
数据是:
R代码是:
Python代码是:
python - How to conduct an exact Fisher test when I have more than two groups in Python?
My data is the following:
I would like to make an exact Fisher test. There is a function in scipy but accepts only 2x2 contingency tables:
In R there is a function that does exactly that, but how about in Python? In R:
python - 解释安德森亲爱的测试 scipy
有兴趣了解如何在 python 中解释 Anderson darling 测试的结果。
似乎 AD stat 必须低于其相关显着性水平的临界值,尽管我不确定如何从函数的返回中正确确定这一点。
这是函数的结果
hypothesis-test - 如果 A/B 测试的样本量大于总体,你会怎么做?
我有一个包含 7337 名客户的列表(之所以被选中,是因为他们在 2018 年 3 月至 8 月期间只有一次预订)。我们将与他们联系,并试图测试这些活动对他们销售的影响。这个想法是,与他们联系将使他们预订更多,并增加这个基本上不活跃的群体的销售额。
我必须设置一个 A/B 测试,目前卡在样本量计算上。
这是我的示例数据: 数据
第一列是他们的 ID,第二列是该组 1 月份 2 周的总销售额(我花了 2 周,因为该组中的客户很少购买)。
我确定的指标是每位客户的收入(RPC = 总收入/总客户),因此我可以同时考虑订单数量和该组的平均订单价值。
该组的 RPC 为 $149,482.7/7337=$20.4
我希望能够在 80% 的功效和 5% 的显着性水平下检测到该指标至少增加 5%。首先,我计算了效果大小。
数据集的标准偏差 = 153.9 影响大小 = (1.05*20.4-20.4)/153.9 = 0.0066
然后我使用 R 中的 pwr 包来计算样本量。
pwr.t.test(d=0.0066, sig.level=.05, power = .80, type = 'two.sample')
然而,我得到的样本量是 360,371。这大于我的人口规模(7337)。
这是否意味着我无法以足够的功率运行测试?我可以确定在不影响显着性或功效的情况下降低样本量的唯一方法是增加效应量以确定最小增加 50%,这将使我得到 n=3582。
这听起来影响很大,我不确定这种影响是否合理。
这是否意味着我不能在这里运行 A/B 测试来衡量影响?
testing - 我可以使用哪种统计分析来比较三种实验方法中的距离估计?
我有三个数据集,由人类在三种不同的实验方法(如现实生活、虚拟现实和基于计算机的模拟)中进行的距离估计。我想比较这三种实验方法中人类在估计距离方面有何不同。哪种统计分析适用于它?我的因变量是距离估计,自变量是三种不同的实验条件。谢谢你。
r - 如何将数据读入R中的列联表
我正在尝试从这个链接实现代码:
http://rcompanion.org/handbook/H_09.html
特别是此示例的代码:“Example of Extended Cochran–Armitage test 1”
问题是我正在尝试读取包含“输入”表数据的 csv 文件。csv表与示例代码中的表相同,即
然后我继续在 R 中自己编写以下代码;
生成的 prop.table 与网站上的完全不同,如下所示:
你能帮我解决这个问题吗?谢谢
statistics - 拟合线性回归和执行 t 检验会给出相似的结果吗?
我正在尝试从二元变量列表中预测具有统计意义的变量。我对下面提到的两种查找相关变量的方法存在概念上的疑问。
因变量: 人的身高
自变量:
- 性别(男或女)
- 财务状况(贫困线以下与否)
- College_Graduate(是或否)
方法 1:拟合线性回归,同时将这些作为因/独立变量并找到具有统计意义的变量
方法 2:对每个因变量执行单独的统计检验(t 检验或其他相关检验)以计算统计显着变量
这两种方法是否相似并且会给出相似的结果?如果不是,具体有什么区别?