“sample-size”的相关标签问题

0 投票

0 回答

283 浏览

r - ggplot中的功率曲线打印空白图

我想在 x 轴上产生一些功率曲线，并在 y 轴上产生功率。我只是稍微修改了以下来源的代码： https ://moderndata.plot.ly/power-curves-r-plotly-ggplot2/以创建功率曲线。作者使用的是双边 t 检验，而我使用的是两个比例检验。

我出于测试目的运行了作者的代码，它运行良好。当我运行自己的代码并稍作修改时（我只修改了循环中的部分以进行两个比例测试而不是在测试中），图中没有打印任何内容。我无法弄清楚我做错了什么。请注意，我暂时保留了作者的列名，因为我只是想测试我的代码。

编辑：我发现我做错了什么，我在不需要的时候指定了效果大小选项，因为循环将遍历 0 到 1 之间的所有效果大小。以下对循环的修改已修复我的问题：

r ggplot2 inference sample-size

2018-07-09T20:10:55.887

0 投票

1 回答

683 浏览

r - 混合模型的样本量计算 - simr 包

我有一个用构建的模型nlme::lme，只有一个随机效应 (ID) 和一个二元自变量 (x)。我现在正在尝试使用此模型进行样本量计算。

R中的simr包似乎可以完成这项工作。

但是，由于错误，我实际上没有得到任何结果，而且我不知道这里可能出了什么问题...

powerSim(model1, fixed("x", "lr"), nsim = 1000)

我在网上找到了一些关于将测试更改为“t”或“z”而不是“lr”的建议，但这并没有改变任何东西......

然后我跑去 lastResult()$err 看看出了什么问题，我得到了以下信息，但我找不到到底是什么......

我会欣赏任何形式的帮助，甚至是使用此模型进行示例计算的任何其他方式...

谢谢！

r mixed-models nlme sample-size

2018-10-18T09:54:52.163

0 投票

0 回答

334 浏览

excel - 在 Excel 中，如何找到具有不同样本量和总体规模的调查的误差范围和置信区间？

我正在计算最近一次活动中大约 50 个不同会话的 NPS（净推荐值）。每次会议大约有 50-500 人参加，每次会议的调查回复数量在 15-400 人之间。

如果我知道：

每个会话的受访者数量（样本量）
每个会话的参加者人数（人口规模）
每个会话的 NPS 分数（平均评分，基本上 - 更多信息如下）

如何计算 Excel 中每个会话的误差范围和/或置信区间？

例如，在 X = 样本大小、Y = 总体大小和 Z = 平均评分的情况下，我会使用什么公式？

只要我在球场上，我就不需要这是非常正确的——所以你可以忽略 NPS 部分，这可能会稍微把事情搞砸：

由于 NPS 是一个奇怪的指标，这一点有点复杂。它询问“您向朋友或同事推荐 X 的可能性有多大？” 范围为 0-10（10 = 极有可能，0 = 完全不可能）。然后，您将每 10 和 9 视为“促进者”，将每 8 和 7 视为“中立”或“被动”，并将 6 到 0 之间的所有内容视为“贬低者”。
然后，您通过从发起人中减去批评者，将该数字除以总响应，然后将其乘以 100 来获得 NPS，因此：（（推广者 - 批评者）/（总响应））*100。NPS 会将每个响应展平为 +1、0 或 -1，因此可能会使计算复杂化。

假设我已经计算了每个会话的 NPS。我正在尝试使用 Excel 计算每个会话的误差范围和/或置信区间。

因此，例如，我的数据如下所示：

同样，如果 NPS 更容易，你可以忽略 NPS 的东西，只是假设它是一个平均评分，要求人们对每个会话进行从 -100 到 +100 的评分。考虑到样本量和目标人口规模以及平均评分，我将在 Excel 中使用哪些函数来查找每个会话的误差范围和/或置信区间？

excel excel-formula survey confidence-interval sample-size

2018-10-25T19:11:10.650

0 投票

0 回答

65 浏览

r - 具有来自不同数据集的变量的 MANOVA

这个问题已经在stats.stackexchange上被问过，但没有人回答。由于我不确定哪个论坛是合适的，所以我在这里再次发布了一些数据。

我已经对树皮的各种特征进行了实验，现在想比较五种被检查的树种在评估参数方面的差异程度。因此，有人建议我应该使用 MANOVA 来分析我的数据，这对我来说似乎是合理的。我的分析是在R.

但是，与我发现的关于如何进行MANOVA的大多数示例不同（即此处、此处、此处），我的数据来自不同的测量值和不同的个体。现在，我发现只有这个线程讨论了不相等的样本量，但这仅针对解释因素内的样本量。

为了进一步说明，想象一下我每个树种都有......

9 测量树皮粗糙度。
4 测量树皮厚度，
3 次 pH 测量，
5 测量持水量，
5 测量保水性。

当然，我可以为这些变量中的每一个做单独的方差分析（我已经做过），但我认为方差分析应该有一些优势，对吧？

我的问题：

MANOVA 是否适合此类数据？我可以忽略我不同的可变尺寸吗？有没有另一种方法可以做到这一点，或者更确切地说是另一种统计测试？我的小样本量重要吗？

到目前为止我的结果：

在R中，我只是将所有变量合二为一data.frame，并用 s 填充了由于样本量不等而导致的缺失值NA（这就是为什么下面有nums列的原因data.frame）。然后，我像这样运行 MANOVA：pH + water content + thickness + roughness ~ tree species使用manova函数。

示例数据：

abbr看起来像这样（树种在哪里，nums每个树种的测量次数，其余的是树参数）：

我的分析很简单：

我没有在这里包含我的真实数据，但它们遵循相同的结构。给定的数据远非重要，而我的实际数据是！我的问题只是关于NA我的数据中的许多 s 以及测试是否准确。

（如果有不清楚的地方，请询问。）

r na manova sample-size

2018-12-09T12:54:44.703

0 投票

3 回答

3423 浏览

r - SMOTE in r 显着减少样本量

我有一个包含大约 130000 条记录的数据集。记录分为两类目标变量，0 和 1。1 仅占总比例的 0.09%。

我在 Windows 10 上的 R-3.5.1 中运行我的分析。我使用 SMOTE 算法来处理这个不平衡的数据集。

我使用以下代码来处理不平衡的数据集

但是在执行代码之后，我看到 0 的计数是 212 和 1 也是 212，这大大减少了我的样本量。你能建议我如何在不改变我的数据大小的情况下使用 SMOTE 处理这个不平衡的数据集

r statistics sample-size

2019-02-11T06:36:02.410

0 投票

0 回答

34 浏览

我需要为 3 臂试验进行功率计算（以确定最小可检测效应大小，给定 alpha、功率、样本大小等）。我找到了 R 包 Three.Arm.Trials，但是我想知道如何使用它在集群随机设计中解释 ICC。我想确定治疗与参考和安慰剂与参考的最小可检测效应大小，并检查我的样本量是否足以检测两者之间的显着差异（即治疗与参考显着大于安慰剂与参考）。非常感谢任何见解，甚至对我可以使用的其他软件的建议！谢谢你。

r sample-size

2019-08-02T12:33:38.270

0 投票

0 回答

191 浏览

r - 估计较小样本量的功效 - simr 包

注意：此问题已作为此GitHub 问题交叉发布。

我根据之前包含 40 名参与者的实验的数据来估计样本量。

我使用simr::powerCurve了几个小于原始样本大小的样本：

所有尺寸的结果都相同，接近 100%。我认为这是由于模拟样本量小于原始样本量。

有没有一种方法可以估计样本量小于用于拟合模型的样本量的功效？

这是一个使用合成数据的可重现示例（代码取自https://humburg.github.io/Power-Analysis/simr_power_analysis.html并稍作修改）：

输出是

r sample-size

2019-08-18T14:54:18.600

0 投票

2 回答

111 浏览

r - Minimum sample size n such that difference is no more than

What is the minimum sample size n (or the length n = length(x) of the data vector x) such that the difference D = 1 - statx4(x)/statx5(x) of the functions statx4 and statx5 is no more than 1/100 i.e. D ≤ 1/100?

And here are the functions:

I've been doing this exercise set for a while, but haven't managed to get anything valid on this question. Could you point me to right direction?

r function difference sample-size

2019-09-14T07:49:15.483

0 投票

1 回答

128 浏览

r - 在 R 中使用 pwr() 包的 A/B 测试持续时间和样本量计算器

我正在使用 R 中的 googleAnalyticsR 包来提取一些网站访问统计数据并计算转化率。到目前为止没有问题。

但是，当我尝试使用一个名为 pwr 的包计算所需的人口规模和测试持续时间时，我遇到了困难，我根据我从另一个在线用户那里找到的一些建议对其进行了修改。代码如下。

我在网上看到的建议是创建 2 个函数。一个叫做“sample_size_calculator”，另一个叫做“days_calculator”，两者都是不言自明的。至少我很清楚两者的预期功能是什么。

因此，我的输出是：

这对我来说似乎相当现实，直到我尝试使用其他几个在线工具（包括VWO、Unbounce和AB Tasty ）来验证我的结果，所有这些都表明我距离我应该达到的数字大约 0.5 倍运行测试所需的天数。我很欣赏上述计算器之间的一些差异是由于每个公式如何处理舍入，但我更关心我的计算出现错误的原因和位置，例如将测试持续时间低估了一半。

我可以简单地将得到的数字乘以 2，然后上床睡觉，但我很想了解我的错误，甚至学习一种在统计上和语法上更优雅的编码方式。

提前致谢。

r statistics ab-testing multivariate-testing sample-size

2020-02-02T20:56:33.577

0 投票

1 回答

33 浏览

r - 我如何从人群中抽取样本增加（本质上是几何增加）？

我是 R 编程新手，遇到问题需要帮助。有人告诉我，总体呈正态分布，均值为 4，标准差为 4。总体规模为 10000000。然后我被要求从该总体中抽取 23 个样本，从一个大小为 n = 1 的样本开始并且每个连续样本都比前一个样本大 2 倍，即第一个样本的大小 = 1，然后第二个样本是 n = 2，然后是 n = 4，然后是 n = 8，然后是 n = 16 .... n = 2^23。我可以通过手动绘制每个样本来做到这一点，但我正在寻找一种自动化的方法。可能使用for循环？我知道从一个增加到下一个的因素是 2，但我似乎无法推理出来。请帮忙

r statistics normal-distribution sample-size

2020-04-03T04:02:52.343

问题标签 [sample-size]

r - ggplot中的功率曲线打印空白图

r - 混合模型的样本量计算 - simr 包

excel - 在 Excel 中，如何找到具有不同样本量和总体规模的调查的误差范围和置信区间？

r - 具有来自不同数据集的变量的 MANOVA

我的问题：

到目前为止我的结果：

示例数据：

r - SMOTE in r 显着减少样本量

r - 3 臂集群随机试验的功效计算

r - 估计较小样本量的功效 - simr 包

r - Minimum sample size n such that difference is no more than

r - 在 R 中使用 pwr() 包的 A/B 测试持续时间和样本量计算器

r - 我如何从人群中抽取样本增加（本质上是几何增加）？

问题标签 [sample-size]

我的问题：

到目前为止我的结果：

示例数据：

Reference