问题标签 [sample-size]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
270 浏览

tensorflow - TensorFlow 迁移学习样本量

我想对两个类别的预训练图像分类模型进行迁移学习,无论事件 A 是否发生。我知道再培训本身非常有效。样本量如何?对于有意义的结果,我可以使用的最小样本量是多少?

0 投票
1 回答
882 浏览

r - R中具有> 25层的分层引导

我有大约 25 个不同组的数据。为了了解如果我有不同的样本量,每组的方差会如何变化,我正在尝试进行分层引导。例如,在样本大小为 5 时,它应该为每组生成 1000 个包含 5 个重采样点的集合。我喜欢在每组 5 到 30 个可能的范围内尽可能收集最小的样本量。

我遇到的问题是我必须对每个组进行子集化并在各个组上运行引导,然后将 R 输出复制并传递到 excel 中。(我在 R 和如何编码方面相当熟悉)。时间太长了。我需要自动化引导以识别组,并以某种方式将 1000 个组的集合的统计信息保存到数据框中。这有意义吗?

这是我到目前为止的代码:....

这可行,但需要大量复制和粘贴。我想我需要使用 for 循环来按组进行引导或找出其他方法。我确实找到了一种无需引导即可自行进行分层抽样的方法。所以也许我可以弄清楚如何以某种方式重复这 1000 次......

此处使用该函数的示例boot()不适合我的情况。我已经摆弄了一点,但无济于事。我不确定如何编写函数,这也可能是我无法弄清楚的原因。

0 投票
1 回答
135 浏览

dplyr - 根据样本大小/频率排除箱线图中的类别

我有一个大型数据库,我想从中创建一个箱线图:

数据:test.hospital

y:检测结果(%):共1500个样本

x1:不同年份(2011-2017)

x2:不同的医院(30个不同的医院名称)

不同医院的样本量差异很大,因此在某些情况下,实际上数据太少,无法说明数据。因此,我想从我的箱线图中排除所有样本大小<15的医院。

所以我想做的是创建一个额外的行,其中包含医院采样次数的频率,并使用该行来排除我的箱线图的低样本量..

正如您可能得到的那样,我对 R 很陌生,所以对于大多数人来说,这很可能。一个非常简单的问题......但我真的很想得到它的答案......!

非常感谢你:)

0 投票
0 回答
370 浏览

r - 为 r 中的随机森林选择不平衡数据的样本大小

我有一个大数据集(大约 10000 行),我正在尝试运行一个分类随机森林,我打算用它来进行预测。我的数据完全不平衡。对于结果变量,我试图预测大约 89% 的行标记为“1”,其余为“0”。我正在使用的代码如下:

我不确定我应该使用什么样本大小。我应该为每个结果变量采样相同数量的行还是不同?我应该采集多少样本?下面显示了每个变量的数量表。

谢谢!

0 投票
0 回答
796 浏览

javascript - lodash.sampleSize - 在理解代码方面需要帮助

在理解代码方面需要您的帮助。如果我在我的程序中使用来自 lodash 的 sampleSize 函数,它可以按预期工作。但是当我直接在我的程序中使用 sampleSize 的代码(https://github.com/lodash/lodash/blob/master/sampleSize.js)时,它没有按预期工作。主要问题是,在该代码中,我们并没有将“结果”限制为只有“n”个元素。所以“数组”的长度和“结果”的长度是相同的,这是不正确的。我重写了程序以给出预期的结果。但仍然想了解 lodash.sampleSize 它是如何工作的。谢谢!!

这是我的代码

0 投票
1 回答
374 浏览

hierarchical-clustering - Python上具有不同样本大小的层次聚类

我想知道是否可以在 Python 上使用不同的样本大小进行层次聚类?更准确地说,使用 Ward 的最小方差法。

例如,我有 5 个不同长度的整数列表 A、B、C、D、E。我想要做的是根据 Ward 的方法将这 5 个列表分为 3 个组(被合并的集群的方差减少)。

有谁知道该怎么做?

0 投票
1 回答
9556 浏览

python - 如何在 python 中计算(统计)幂函数与样本大小?

这怎么能在python中完成?

  1. 计算给定功率和 alpha 的样本量?
  2. 计算给定样本大小和 alpha 的功效?

注意: 我对 python 为(统计)幂函数计算提供的函数完全感到困惑 :(。

有人可以帮我在这里下订单吗?

statsmodels下有两个函数:

我们有:

我们还有:

还有这段代码:

我在某个地方找到了这个例子,但它没有解释什么是 prop1 和 prop2!

每一个都给了我不同的价值观。

谢谢

0 投票
1 回答
1948 浏览

r - 在为 R 中的置信区间编码时如何使用 dplyr 获取列的长度

我的数据集可以参考这里。简而言之,我有一个名为 fit 的列,我需要为其绘制均值和置信区间。

我正在尝试使用 dplyr 函数为我的 ggplot 编写置信区间代码

这是代码

但是,R 不允许我将 n_predict 编码为 n(fitted)。我也试过长度(合身)但没有运气。有任何想法吗?

0 投票
0 回答
29 浏览

r - 在R中应用向下行后存储从函数中提取的值

我有data.frame两列$P1$P2,都是数字。我想逐行运行power.prop.testin library(stats),并创建第三列,仅打印$n函数结果中的值。测试应该power=0.80在参数中进行。数据如下所示:

会有第三列,例如$N,其中第一个元素是 80681.38,第二个是 21108.38,依此类推。

另外,应该注意相同的数字重复,$P1因为我head()原来data.framerep(seq())几个数字。

有人可以帮忙吗?干杯!

0 投票
1 回答
312 浏览

r - R中样本大小的多重比较调整

我正在尝试为有 5 个组的研究计算样本量。除了为整体 ANOVA 计算 Cohen 的f之外,我如何计算每个组的样本量,以调整成对的事后比较,例如 Tukey?R 中是否有一个函数可以执行此操作,或者计算 Cohen 的d并在这里调整 alpha 工作?