问题标签 [sample-size]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
283 浏览

r - ggplot中的功率曲线打印空白图

我想在 x 轴上产生一些功率曲线,并在 y 轴上产生功率。我只是稍微修改了以下来源的代码: https ://moderndata.plot.ly/power-curves-r-plotly-ggplot2/以创建功率曲线。作者使用的是双边 t 检验,而我使用的是两个比例检验。

我出于测试目的运行了作者的代码,它运行良好。当我运行自己的代码并稍作修改时(我只修改了循环中的部分以进行两个比例测试而不是在测试中),图中没有打印任何内容。我无法弄清楚我做错了什么。请注意,我暂时保留了作者的列名,因为我只是想测试我的代码。

编辑:我发现我做错了什么,我在不需要的时候指定了效果大小选项,因为循环将遍历 0 到 1 之间的所有效果大小。以下对循环的修改已修复我的问题:

0 投票
1 回答
683 浏览

r - 混合模型的样本量计算 - simr 包

我有一个用 构建的模型nlme::lme,只有一个随机效应 (ID) 和一个二元自变量 (x)。我现在正在尝试使用此模型进行样本量计算。

R中的simr包似乎可以完成这项工作。

但是,由于错误,我实际上没有得到任何结果,而且我不知道这里可能出了什么问题...

powerSim(model1, fixed("x", "lr"), nsim = 1000)

我在网上找到了一些关于将测试更改为“t”或“z”而不是“lr”的建议,但这并没有改变任何东西......

然后我跑去 lastResult()$err 看看出了什么问题,我得到了以下信息,但我找不到到底是什么......

我会欣赏任何形式的帮助,甚至是使用此模型进行示例计算的任何其他方式...

谢谢!

0 投票
0 回答
334 浏览

excel - 在 Excel 中,如何找到具有不同样本量和总体规模的调查的误差范围和置信区间?

我正在计算最近一次活动中大约 50 个不同会话的 NPS(净推荐值)。每次会议大约有 50-500 人参加,每次会议的调查回复数量在 15-400 人之间。

如果我知道:

  • 每个会话的受访者数量(样本量)
  • 每个会话的参加者人数(人口规模)
  • 每个会话的 NPS 分数(平均评分,基本上 - 更多信息如下)

如何计算 Excel 中每个会话的误差范围和/或置信区间?

例如,在 X = 样本大小、Y = 总体大小和 Z = 平均评分的情况下,我会使用什么公式?

只要我在球场上,我就不需要这是非常正确的——所以你可以忽略 NPS 部分,这可能会稍微把事情搞砸:

  • 由于 NPS 是一个奇怪的指标,这一点有点复杂。它询问“您向朋友或同事推荐 X 的可能性有多大?” 范围为 0-10(10 = 极有可能,0 = 完全不可能)。然后,您将每 10 和 9 视为“促进者”,将每 8 和 7 视为“中立”或“被动”,并将 6 到 0 之间的所有内容视为“贬低者”。
  • 然后,您通过从发起人中减去批评者,将该数字除以总响应,然后将其乘以 100 来获得 NPS,因此:((推广者 - 批评者)/(总响应))*100。NPS 会将每个响应展平为 +1、0 或 -1,因此可能会使计算复杂化。

假设我已经计算了每个会话的 NPS。我正在尝试使用 Excel 计算每个会话的误差范围和/或置信区间。

因此,例如,我的数据如下所示:

在此处输入图像描述

同样,如果 NPS 更容易,你可以忽略 NPS 的东西,只是假设它是一个平均评分,要求人们对每个会话进行从 -100 到 +100 的评分。考虑到样本量和目标人口规模以及平均评分,我将在 Excel 中使用哪些函数来查找每个会话的误差范围和/或置信区间?

0 投票
0 回答
65 浏览

r - 具有来自不同数据集的变量的 MANOVA

这个问题已经在stats.stackexchange上被问过,但没有人回答。由于我不确定哪个论坛是合适的,所以我在这里再次发布了一些数据。

我已经对树皮的各种特征进行了实验,现在想比较五种被检查的树种在评估参数方面的差异程度。因此,有人建议我应该使用 MANOVA 来分析我的数据,这对我来说似乎是合理的。我的分析是在R.

但是,与我发现的关于如何进行MANOVA的大多数示例不同(即此处此处此处),我的数据来自不同的测量值和不同的个体。现在,我发现只有这个线程讨论了不相等的样本量,但这仅针对解释因素内的样本量。

为了进一步说明,想象一下我每个树种都有......

  • 9 测量树皮粗糙度。
  • 4 测量树皮厚度,
  • 3 次 pH 测量,
  • 5 测量持水量,
  • 5 测量保水性。

当然,我可以为这些变量中的每一个做单独的方差分析(我已经做过),但我认为方差分析应该有一些优势,对吧?

我的问题:

MANOVA 是否适合此类数据?我可以忽略我不同的可变尺寸吗?有没有另一种方法可以做到这一点,或者更确切地说是另一种统计测试?我的小样本量重要吗?

到目前为止我的结果:

R中,我只是将所有变量合二为一data.frame,并用 s 填充了由于样本量不等而导致的缺失值NA(这就是为什么下面有nums列的原因data.frame)。然后,我像这样运行 MANOVA:pH + water content + thickness + roughness ~ tree species使用manova函数。

示例数据:

abbr看起来像这样(树种在哪里,nums每个树种的测量次数,其余的是树参数):

我的分析很简单:

我没有在这里包含我的真实数据,但它们遵循相同的结构。给定的数据远非重要,而我的实际数据是!我的问题只是关于NA我的数据中的许多 s 以及测试是否准确。

(如果有不清楚的地方,请询问。)

0 投票
3 回答
3423 浏览

r - SMOTE in r 显着减少样本量

我有一个包含大约 130000 条记录的数据集。记录分为两类目标变量,0 和 1。1 仅占总比例的 0.09%。

我在 Windows 10 上的 R-3.5.1 中运行我的分析。我使用 SMOTE 算法来处理这个不平衡的数据集。

我使用以下代码来处理不平衡的数据集

但是在执行代码之后,我看到 0 的计数是 212 和 1 也是 212,这大大减少了我的样本量。你能建议我如何在不改变我的数据大小的情况下使用 SMOTE 处理这个不平衡的数据集

0 投票
0 回答
34 浏览

r - 3 臂集群随机试验的功效计算

我需要为 3 臂试验进行功率计算(以确定最小可检测效应大小,给定 alpha、功率、样本大小等)。我找到了 R 包 Three.Arm.Trials,但是我想知道如何使用它在集群随机设计中解释 ICC。我想确定治疗与参考和安慰剂与参考的最小可检测效应大小,并检查我的样本量是否足以检测两者之间的显着差异(即治疗与参考显着大于安慰剂与参考)。非常感谢任何见解,甚至对我可以使用的其他软件的建议!谢谢你。

0 投票
0 回答
191 浏览

r - 估计较小样本量的功效 - simr 包

注意:此问题已作为GitHub 问题交叉发布。

我根据之前包含 40 名参与者的实验的数据来估计样本量。

我使用simr::powerCurve了几个小于原始样本大小的样本:

所有尺寸的结果都相同,接近 100%。我认为这是由于模拟样本量小于原始样本量。

有没有一种方法可以估计样本量小于用于拟合模型的样本量的功效?

这是一个使用合成数据的可重现示例(代码取自https://humburg.github.io/Power-Analysis/simr_power_analysis.html并稍作修改):

输出是

0 投票
2 回答
111 浏览

r - Minimum sample size n such that difference is no more than

What is the minimum sample size n (or the length n = length(x) of the data vector x) such that the difference D = 1 - statx4(x)/statx5(x) of the functions statx4 and statx5 is no more than 1/100 i.e. D ≤ 1/100?

And here are the functions:

I've been doing this exercise set for a while, but haven't managed to get anything valid on this question. Could you point me to right direction?

0 投票
1 回答
128 浏览

r - 在 R 中使用 pwr() 包的 A/B 测试持续时间和样本量计算器

我正在使用 R 中的 googleAnalyticsR 包来提取一些网站访问统计数据并计算转化率。到目前为止没有问题。

但是,当我尝试使用一个名为 pwr 的包计算所需的人口规模和测试持续时间时,我遇到了困难,我根据我从另一个在线用户那里找到的一些建议对其进行了修改。代码如下。

我在网上看到的建议是创建 2 个函数。一个叫做“sample_size_calculator”,另一个叫做“days_calculator”,两者都是不言自明的。至少我很清楚两者的预期功能是什么。

因此,我的输出是:

这对我来说似乎相当现实,直到我尝试使用其他几个在线工具(包括VWOUnbounceAB Tasty )来验证我的结果,所有这些都表明我距离我应该达到的数字大约 0.5 倍运行测试所需的天数。我很欣赏上述计算器之间的一些差异是由于每个公式如何处理舍入,但我更关心我的计算出现错误的原因和位置,例如将测试持续时间低估了一半。

我可以简单地将得到的数字乘以 2,然后上床睡觉,但我很想了解我的错误,甚至学习一种在统计上和语法上更优雅的编码方式。

提前致谢。

0 投票
1 回答
33 浏览

r - 我如何从人群中抽取样本增加(本质上是几何增加)?

我是 R 编程新手,遇到问题需要帮助。有人告诉我,总体呈正态分布,均值为 4,标准差为 4。总体规模为 10000000。然后我被要求从该总体中抽取 23 个样本,从一个大小为 n = 1 的样本开始并且每个连续样本都比前一个样本大 2 倍,即第一个样本的大小 = 1,然后第二个样本是 n = 2,然后是 n = 4,然后是 n = 8,然后是 n = 16 .... n = 2^23。我可以通过手动绘制每个样本来做到这一点,但我正在寻找一种自动化的方法。可能使用for循环?我知道从一个增加到下一个的因素是 2,但我似乎无法推理出来。请帮忙