问题标签 [sample-size]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
75 浏览

r - R中nor.test函数的问题。样本大小必须在3到5000之间

我在使用 nor.test 函数作为 R 中的单向测试时遇到问题。我的数据包含按处理 (Traitement) 分组的屈服值 (Rdt_pied)。在每次处理中,我有 60 到 90 个值。

为什么 nor.test 会返回这个答案?

谢谢您的帮助!

0 投票
0 回答
797 浏览

tensorflow - 如果我的样本量小于批量大小,Keras 会做什么?

对 LSTM 来说相当新,但我已经在寻找解决方案,但找不到任何令人满意甚至足够相似的东西。

所以这是我的问题: 我正在处理睡眠分类,并为大约 6k 名患者添加了注释记录。为了训练我的双向 LSTM,我选择了一名患者并将模型拟合到该数据上,而不是将所有患者的所有数据放入一个大矩阵中,因为我想在 Keras 进行小批量训练时防止患者样本混合。序列长度或samples_size每个患者不一样。然后我循环遍历所有患者,并针对我考虑训练模型的时期数进行额外循环(如开发人员指南中所述)。
因此,由于 LSTM(如果不是有状态的)在每批之后重置它们的单元格和隐藏状态,并且默认batch_size值为tf.keras.Sequential.fit()32,我希望它与sample_size我向网络展示的病人。如果我这样做,我会在一段时间后收到警告和培训过程错误。错误是:

警告:在 0x0000023F9D517708> 处对 .distributed_function 的最后 11 次调用中有 6 次触发了 tf.function 回溯。跟踪是昂贵的,并且过多的跟踪可能是由于传递了 python 对象而不是张量。此外, tf.function 具有 Experimental_relax_shapes=True 选项,可以放宽可以避免不必要的回溯的参数形状。请参阅https://www.tensorflow.org/beta/tutorials/eager/tf_function#python_or_tensor_argshttps://www.tensorflow.org/api_docs/python/tf/function了解更多详情。

所以我查了我最长sample_size的是什么,并相应地设置了我的batch_size


tl;dr:sample_size在我的变量与我的变量不匹配的所有情况下,Keras 都在做什么batch_size=max(len(sample_size))

  1. 它只是向网络显示可用的样本吗?
    • batch_size=sample_size如果是这样:为什么在设置导致训练失败的位置时会出现上述警告?
  2. 或者它是否向网络显示可用样本并用零填充其余样本以匹配给定batch_size
    • 如果是这样:为什么在使用状态模式时需要屏蔽?

编辑: 所以,我尝试了一些额外的解决方法并构建了我自己的数据生成器,它将一名患者的数据证明为一批。然后我开始将steps_per_epoch=len(train_patients)所有患者纳入一个时期。没有关于回溯的警告,我也不明白。
它似乎解决了我在不混合患者数据和变量的情况下每批显示一名患者的问题sample_size,但我真的不明白所有这些可能性及其不同警告之间的区别。

0 投票
0 回答
96 浏览

r - 多级模型的样本量计算

当使用longpowerR 中的包计算统计功效以及相应的样本量时:我如何知道应该使用 longpower 包的哪些功能?具体来说,我正在计算一个带有 time+time^2 的增长曲线模型,并且不确定哪些测试用于统计功效计算。

longpower软件包提供以下选项:

我的模型如下:

0 投票
2 回答
465 浏览

statistics - 如何比较不同样本量的不同组?

在此处输入图像描述我正在绘制来自不同学校的学生数据,以查看某些专业的男女学生人数之间的差异。我正在使用 python,我已经绘制了一些学校的数据,并且正如我预期的那样,男性人数确实更高,然后我意识到每所学校的学生总数都不同。当样本量不同时,我的工作是否有意义?如果不是,我可以建议进行一些更改。

0 投票
1 回答
308 浏览

r - 计算样本量以进行 mcnemar 测试

我想通过使用 mcnemar 检验比较 2 个灵敏度值来计算样本量。我正在寻找在 r 下实现此计算的公式。在这种情况下,我需要用 Sensitivity_1 = 0.78,Sensitivity_2 = 0.558 计算样本量,不一致对 = 0.4664 (Sensitivity_2 * (1 - Sensitivity_1) + Sensitivity_1 * (1 - Sensitivity_2)) 有 0.232 (Sensitivity_1 -Sensitivity_2)区别。

0 投票
0 回答
33 浏览

r - 如何根据计数(最小样本量)选择一个组?

几年来,我收到了一个很好的数据集(红色),用于检查许多树木的橡子形态和寄生虫(象鼻虫)。然而,每棵树的样本量变化很大(5 - 75 颗橡子/树)。我将为一棵树/年组合设置至少 20 个橡子,以输入将要分析的数据集。

如何根据该组的(tree.id)计数选择任何一年(年)的组?

很高兴与 dplyr 一起工作,但我不确定如何使用 dplyr 使用该过滤器创建数据集

到目前为止我所拥有的

谢谢,

杰夫

0 投票
0 回答
263 浏览

sas - SAS twosamplesurvival 样本量问题

我正在尝试在 SAS 中针对事件案例的两个样本时间执行样本大小计算。

情况如下:

  1. 假设两个样本都服从指数分布
  2. 假设在备择假设下给定恒定风险比,我们称 hr(第 2 组与第 1 组)
  3. 我们将使用对数秩检验。
  4. 给定应计时间 a 和跟进时间 f
  5. 还给出了第 1 组的指数风险,称为 exph1
  6. 假设两组之间的样本量比为 1:1
  7. 所需的标称功率为 p

现在我的代码如下所示:

您可以取消注释 eventstotal = 。或总数=。取决于您是要计算请求的事件数还是实际的总样本量。

他们不应该在跟进结束时考虑相同,如果事件没有发生,那么主题将被正确审查。

但是,对于事件总数和总样本量,我总是得到相同的数字。我在这里做错了什么?

我实际上知道如何手动计算,并且我对请求事件编号的手动计算非常接近 SAS 输出(SAS 给出的值稍大但非常接近),但是我的总样本量远大于事件编号。

由于保密原因,我无法透露上述参数的任何特定初始值。有人可以帮忙吗?真的很感激。

0 投票
1 回答
119 浏览

r - 是否有使用 Clopper-Pearson 置信区间计算所需样本量的 R 函数?

我需要使用 R 在二项式过程中确定合适的样本量来估计 p。我看到了 binomSamSize 包,但我没有看到使用 Clopper-Pearson 确定样本量。

0 投票
0 回答
17 浏览

python - 训练模型——我们试图为整个数据集构建预测的类别有多少数据?

我有一个包含分类列(击球手)的数据框。我试图在类别列中的每个类别中预测另一个连续变量(在每个球上运行)。

但是,每个类别都包含不同数量的数据。有些人会提供 1000 个连续列的样本来训练模型,而其他人则少于十几个。在具有大量数据的类别中,对特定于该类别的数据进行大量加权会很好,但在数据较少的类别中对整个数据集进行更高的加权

目前我正在使用线性回归模型(绝不固定于此)。该模型是否会自动对特定于分类 x/batsman 列的数据点进行加权,该数据点通常比其他 batsman 重?如果是这样,特定于具有更多数据的击球手的数据点的权重是否大于特定于具有较少数据的击球手的数据点?有没有办法让模型这样做?

目前,对于非常大的类别,我正在提取和训练特定于该类别的数据

而对于较小的类别,我正在对整个数据集进行训练

有没有办法在使用整体数据量和特定于相关类别的数据之间找到最佳值?以及如何找到针对每个不同大小类别的最佳选择?

0 投票
0 回答
7 浏览

metafor - 一个不寻常的荟萃分析:使用 1 的样本量?

我想做一个元分析(使用 metafor)来统计总结不同技术对环境的影响。结果是以 kg CO2 为单位的量化结果。我的问题是:我正在处理每项研究的样本量为 1,我应该如何计算我的方差 (vi)?什么是尝试的好策略?谢谢!