问题标签 [sample-size]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
18495 浏览

r - 您如何找到计算 r 时使用的样本量?

我正在运行变量之间的相关性,其中一些变量缺少数据,因此每个相关性的样本量可能不同。我尝试了打印和摘要,但这些都没有显示我的 n 对于每个相关性有多大。这是一个相当简单的问题,我无法在任何地方找到答案。

0 投票
1 回答
9426 浏览

r - r中的样本大小和功率计算作为SAS中proc功率的可行替代方案?

所以我想看看样本量计算(对于两个样本量不相等的样本独立比例)在 SAS 中的 proc power 和 r 中的一些样本量函数之间有多接近。我正在使用在 UCLA 网站上找到的数据。

UCLA 网站给出的参数如下:

p1=.3,p2=.15,power=.8,null difference=0,对于双边测试,它假设样本量相等;

对于不等样本量测试,参数是相同的,group1 的组权重为 1,group2 的组权重为 2,并且它们执行的测试是单方面的。

我正在使用 r 功能

pwr包中。

因此,如果我按照 UCLA 站点的第一个示例输入参数选择,则会收到以下错误:

这似乎是因为 r 无法检测到差异。我设置了 d=.5 并且它运行了。SAS会因为太小的差异而给出错误吗?它不在示例中,因为它们的零差也为零。

使用时我也收到上述错误

我可能做错了什么,但如果假设的差异为 0,我似乎无法真正找到方法。

我知道 SAS 和 r 使用不同的方法来计算功率,所以我不应该期望得到相同的结果。我真的只是想看看我是否可以在 r 中复制 proc power 结果。

对于第一个示例,我已经能够获得几乎相同的结果,具有相同的样本量和使用的双面替代方案

Hmisc包中。但是当他们用不相等的样本量进行单面测试时,我无法复制这些。

有没有办法在 r 中复制该过程以计算不等组大小的单边样本大小?

干杯。

0 投票
2 回答
5075 浏览

android - Android BitmapFactory decodeStream()

我有一个问题,我似乎无处可寻。这行代码是否:

实际上意味着,正在下载该文件?Android 文档是这样说的:

使用 inJustDecodeBounds=true 解码以检查尺寸

并且

意味着它实际上会下载更小的文件(不下载为原始大小,然后复制到更小的位图)。

清晰的例子:我有一些指向许多 2000 x 1500 图像的 url。通过解码这些文件并将它们加载到位图,如果我只需要 (200 x 150) 的缩略图,我是否需要有足够的内存来以全分辨率 (2000 x 1500) 下载文件?

0 投票
1 回答
15185 浏览

machine-learning - 执行随机森林时的最小观察次数

是否可以将 RandomForests 应用于非常小的数据集?我有一个包含许多变量的数据集,但每个变量只有 25 个观察值。随机森林产生合理的结果,OOB 错误低 (10-25%)。关于使用的最少观察次数是否有任何经验法则?事实上,其中一个响应变量是不平衡的,如果我要对它进行二次抽样,我最终会得到更少的观察结果。提前致谢

0 投票
0 回答
251 浏览

machine-learning - 回归还是分类?如何确定样本量?

我有一组实例,每个实例都有 n 个特征(数字)。我每隔 X 个时间步对我的特征进行重新采样,因此每个实例在 t1:tn 处都有一组特征。持续响应变量(例如,范围为 50:100)仅每 X*z 次测量一次。(例如每分钟采样一次,每 30 次才响应一次) 特征可能会随着时间而改变。回应也可能如此。

现在在任何时间点 T 我想将一个新实例映射到响应范围。

万一我还没有失去你:-)你宁愿把它看作是一个回归还是一个多类分类问题(具有离散的响应范围)?在这两种情况下,是否有经验法则我需要多少个实例?如果实例不遵循相同的分布,(例如,对同一组特征值的不同响应,我可以使用聚类来过滤/分析吗?)

0 投票
0 回答
227 浏览

stata - 用于 MANOVA 假设检验的 Stata 中 mvtest 的样本量

我正在寻找有关特定 Stata 命令的建议 - 我正在使用 MANOVA(在 Stata 中)分析模拟输出并想要测试假设 - 特别是(1)同方差性和(2)因变量的相关性。

我在 Stata 中使用以下代码进行测试,并且收到以下错误消息:

错误信息:

我的实验使用 Box-Behnken 分数设计,包含 108 个治疗组和每个治疗组 24 个样本(因此有 2.592 个观察值)——我认为这应该足够了。

有人知道我做错了什么吗?

0 投票
0 回答
808 浏览

r - R 模拟二项式多级数据以估计各种 ICC 的功率

提前我想为这篇文章的长度道歉:S [编辑如下]

我想为具有二元结果的集群随机试验进行样本量计算。结果是患者是否使用帮助服务;Y= 使用帮助服务(Y/N) 患者嵌套在诊所(五种类型)中,诊所嵌套在医院中。

我们有一个针对医院工作人员的教育计划,以促进帮助服务,试验要回答的主要问题是“教育计划是否会增加患者在治疗后的前 3 个月使用帮助热线的比例?完成教育计划?该教育计划将在“实验医院”中展开;控制医院不会做任何事情。

并非所有患者都会使用该服务,因为并非所有患者在与临床医生/护士交谈后都会有未满足的需求。不同诊所的未满足需求水平被认为是不同的(提供更严重治疗的诊所有更高的未满足需求,因此有更大的“潜在求助热线用户”群体)。

在控制站点使用帮助服务的患者的预期百分比 = 10% 在实验站点使用帮助服务的患者的预期百分比 = 20%

组内系数未知,但其他研究显示 ICC 分别为 0.09 和 0.15。我有兴趣在 0 到 0.20 的 ICC 范围内评估样本量。

目前,我假设教育计划可以立即在所有随机接受实验治疗的医院推出,并且患者只访问 1 个诊所。可用于评估计划有效性的数据是:• 三个月内每个诊所就诊的患者人数 • 三个月内使用帮助服务的患者人数 我们没有个别患者数据(因为有些人在使用帮助服务时可能希望保持匿名),但汇总数据在诊所层面。

我找到了 R 包“CRTSize”,它可以计算两级数据(医院内的患者)所需的集群数量:

所以当我每家医院有大约 200 分,ICC 为 0.15 时,我需要大约 65 家医院(一半随机对照,一半随机干预)

我不认为它可以对我的数据中的三个级别(pts/clinics/hospitals)进行建模。其他并发症将是医院的患者人数会有所不同,并且并非所有医院都会拥有所有类型的诊所,因为有些医院可能更专业。

所以我试图模拟一些数据。我不知道如何使用特定的 ICC 模拟数据,但我想我找到了解决方法(见下文)。每个对照医院的患者有 10% 的概率拨打求助热线(干预医院为 20%)。我围绕这些百分比添加了医院特定的错误。每家医院都有 1-4 个诊所。用于从二项分布中抽取 x 个样本的比例在医院内的诊所之间是相同的(x 是诊所中的患者人数)。

我以 ICC 约为 0.15 的方式调整了医院误差。但是,ICC 因每个模拟而异。我想,当我运行许多模拟时,我会在 0.145-0.155 范围内得到足够的模拟来说明 ICC = 0.15 的功率。

这是我到目前为止所做的:

当我运行 10k 次模拟时,我得到以下(意外)结果:

(这是针对 10% 对 20%,N=30 家医院(15+15),医院与目标比例的具体偏差为 -0.15 到 0.15(从均匀分布中抽样)

“功率”仅在明显运行许多模拟的范围内有效。例如,我们看到对于大约 0.15 的 ICC,当总共使用 30 家医院时(15 控制 +15 exp),我们将有大约 83-85% 的能力来检测控制/实验医院之间的差异。一件很清楚的事情是,功率不会随着 ICC 的增加而降低,这是我们所期望的。所以编码有问题……这与计算 ICC 的方式有关吗?ICC 的增加要么是医院间差异的增加,要么是医院内差异的减少,或两者兼而有之。

不知道如何进行……欢迎评论!

编辑 1:我想看看观察到的ICC内的力量并不公平。我应该看看真正的ICC下的力量。我想我最大的问题是如何使用固定的底层 ICC 模拟数据集......

0 投票
1 回答
4938 浏览

python - Is there a good way to display sample size on grouped boxplots using Python Matplotlib

I could get the size info using groupby and add text to the corresponding location. But I can't help thinking there's a better way as this really seems mundane, something many people would like to see...

To illustrate, the following code would generate a grouped boxplot

boxplot What I'd like is to show the sample size of each class A and B, namely 24 and 76 respectively. It could appear as legend or somewhere near the boxes, either is ok with me.

Thanks!

0 投票
1 回答
865 浏览

r - R中的pwr.chisq.test错误

我现在正在尝试估计网站转换率的 A/B 测试所需的样本量。当我的转化率值较小时,pwr.chisq.test 总是给我错误消息:

但是,如果我对 p1 和 p2 有较大的值,则此代码可以正常工作。

卡方幂计算

注意:N 是观察次数

0 投票
1 回答
59 浏览

machine-learning - 这个训练数据集是否足以训练和测试分类模型?

我的训练数据集仅包含 2 个具有 40 个特征的类。

在案例 1 中,第 1 类有 35 个样本,第 2 类有 700 个样本。

在案例 2 中,第 1 类有 65 个样本,第 2 类具有与上述相同的值。

我的训练数据集是否足以使用 SVM 分类器或其他分类器构建模型?

我正在使用 WEKA。测试选项是10 倍交叉验证%66,我得到了非常好的结果。