“sample-size”的相关标签问题

0 投票

3 回答

18495 浏览

r - 您如何找到计算 r 时使用的样本量？

我正在运行变量之间的相关性，其中一些变量缺少数据，因此每个相关性的样本量可能不同。我尝试了打印和摘要，但这些都没有显示我的 n 对于每个相关性有多大。这是一个相当简单的问题，我无法在任何地方找到答案。

r summary sample-size

2013-01-01T20:30:19.857

0 投票

1 回答

9426 浏览

r - r中的样本大小和功率计算作为SAS中proc功率的可行替代方案？

所以我想看看样本量计算（对于两个样本量不相等的样本独立比例）在 SAS 中的 proc power 和 r 中的一些样本量函数之间有多接近。我正在使用在 UCLA 网站上找到的数据。

UCLA 网站给出的参数如下：

p1=.3,p2=.15,power=.8,null difference=0，对于双边测试，它假设样本量相等；

对于不等样本量测试，参数是相同的，group1 的组权重为 1，group2 的组权重为 2，并且它们执行的测试是单方面的。

我正在使用 r 功能

从pwr包中。

因此，如果我按照 UCLA 站点的第一个示例输入参数选择，则会收到以下错误：

这似乎是因为 r 无法检测到差异。我设置了 d=.5 并且它运行了。SAS会因为太小的差异而给出错误吗？它不在示例中，因为它们的零差也为零。

使用时我也收到上述错误

和

我可能做错了什么，但如果假设的差异为 0，我似乎无法真正找到方法。

我知道 SAS 和 r 使用不同的方法来计算功率，所以我不应该期望得到相同的结果。我真的只是想看看我是否可以在 r 中复制 proc power 结果。

对于第一个示例，我已经能够获得几乎相同的结果，具有相同的样本量和使用的双面替代方案

从Hmisc包中。但是当他们用不相等的样本量进行单面测试时，我无法复制这些。

有没有办法在 r 中复制该过程以计算不等组大小的单边样本大小？

干杯。

r sas sample hmisc sample-size

2013-03-13T20:24:54.173

0 投票

2 回答

5075 浏览

android - Android BitmapFactory decodeStream()

我有一个问题，我似乎无处可寻。这行代码是否：

实际上意味着，正在下载该文件？Android 文档是这样说的：

使用 inJustDecodeBounds=true 解码以检查尺寸

并且：

意味着它实际上会下载更小的文件（不下载为原始大小，然后复制到更小的位图）。

清晰的例子：我有一些指向许多 2000 x 1500 图像的 url。通过解码这些文件并将它们加载到位图，如果我只需要 (200 x 150) 的缩略图，我是否需要有足够的内存来以全分辨率 (2000 x 1500) 下载文件？

android decode bitmapfactory sample-size

2013-04-18T07:04:03.627

0 投票

1 回答

15185 浏览

machine-learning - 执行随机森林时的最小观察次数

是否可以将 RandomForests 应用于非常小的数据集？我有一个包含许多变量的数据集，但每个变量只有 25 个观察值。随机森林产生合理的结果，OOB 错误低 (10-25%)。关于使用的最少观察次数是否有任何经验法则？事实上，其中一个响应变量是不平衡的，如果我要对它进行二次抽样，我最终会得到更少的观察结果。提前致谢

machine-learning random-forest sample-size

2013-07-09T09:19:12.060

0 投票

0 回答

251 浏览

machine-learning - 回归还是分类？如何确定样本量？

我有一组实例，每个实例都有 n 个特征（数字）。我每隔 X 个时间步对我的特征进行重新采样，因此每个实例在 t1:tn 处都有一组特征。持续响应变量（例如，范围为 50:100）仅每 X*z 次测量一次。（例如每分钟采样一次，每 30 次才响应一次）特征可能会随着时间而改变。回应也可能如此。

现在在任何时间点 T 我想将一个新实例映射到响应范围。

万一我还没有失去你:-)你宁愿把它看作是一个回归还是一个多类分类问题（具有离散的响应范围）？在这两种情况下，是否有经验法则我需要多少个实例？如果实例不遵循相同的分布，（例如，对同一组特征值的不同响应，我可以使用聚类来过滤/分析吗？）

machine-learning classification regression sample-size

2014-05-13T14:42:36.130

0 投票

0 回答

227 浏览

stata - 用于 MANOVA 假设检验的 Stata 中 mvtest 的样本量

我正在寻找有关特定 Stata 命令的建议 - 我正在使用 MANOVA（在 Stata 中）分析模拟输出并想要测试假设 - 特别是（1）同方差性和（2）因变量的相关性。

我在 Stata 中使用以下代码进行测试，并且收到以下错误消息：

错误信息：

我的实验使用 Box-Behnken 分数设计，包含 108 个治疗组和每个治疗组 24 个样本（因此有 2.592 个观察值）——我认为这应该足够了。

有人知道我做错了什么吗？

stata sample-size manova

Eike

2014-12-30T10:39:04.977

0 投票

0 回答

808 浏览

r - R 模拟二项式多级数据以估计各种 ICC 的功率

提前我想为这篇文章的长度道歉：S [编辑如下]

我想为具有二元结果的集群随机试验进行样本量计算。结果是患者是否使用帮助服务；Y= 使用帮助服务（Y/N）患者嵌套在诊所（五种类型）中，诊所嵌套在医院中。

我们有一个针对医院工作人员的教育计划，以促进帮助服务，试验要回答的主要问题是“教育计划是否会增加患者在治疗后的前 3 个月使用帮助热线的比例？完成教育计划？该教育计划将在“实验医院”中展开；控制医院不会做任何事情。

并非所有患者都会使用该服务，因为并非所有患者在与临床医生/护士交谈后都会有未满足的需求。不同诊所的未满足需求水平被认为是不同的（提供更严重治疗的诊所有更高的未满足需求，因此有更大的“潜在求助热线用户”群体）。

在控制站点使用帮助服务的患者的预期百分比 = 10% 在实验站点使用帮助服务的患者的预期百分比 = 20%

组内系数未知，但其他研究显示 ICC 分别为 0.09 和 0.15。我有兴趣在 0 到 0.20 的 ICC 范围内评估样本量。

目前，我假设教育计划可以立即在所有随机接受实验治疗的医院推出，并且患者只访问 1 个诊所。可用于评估计划有效性的数据是：• 三个月内每个诊所就诊的患者人数 • 三个月内使用帮助服务的患者人数我们没有个别患者数据（因为有些人在使用帮助服务时可能希望保持匿名），但汇总数据在诊所层面。

我找到了 R 包“CRTSize”，它可以计算两级数据（医院内的患者）所需的集群数量：

所以当我每家医院有大约 200 分，ICC 为 0.15 时，我需要大约 65 家医院（一半随机对照，一半随机干预）

我不认为它可以对我的数据中的三个级别（pts/clinics/hospitals）进行建模。其他并发症将是医院的患者人数会有所不同，并且并非所有医院都会拥有所有类型的诊所，因为有些医院可能更专业。

所以我试图模拟一些数据。我不知道如何使用特定的 ICC 模拟数据，但我想我找到了解决方法（见下文）。每个对照医院的患者有 10% 的概率拨打求助热线（干预医院为 20%）。我围绕这些百分比添加了医院特定的错误。每家医院都有 1-4 个诊所。用于从二项分布中抽取 x 个样本的比例在医院内的诊所之间是相同的（x 是诊所中的患者人数）。

我以 ICC 约为 0.15 的方式调整了医院误差。但是，ICC 因每个模拟而异。我想，当我运行许多模拟时，我会在 0.145-0.155 范围内得到足够的模拟来说明 ICC = 0.15 的功率。

这是我到目前为止所做的：

当我运行 10k 次模拟时，我得到以下（意外）结果：

（这是针对 10% 对 20%，N=30 家医院（15+15），医院与目标比例的具体偏差为 -0.15 到 0.15（从均匀分布中抽样）

“功率”仅在明显运行许多模拟的范围内有效。例如，我们看到对于大约 0.15 的 ICC，当总共使用 30 家医院时（15 控制 +15 exp），我们将有大约 83-85% 的能力来检测控制/实验医院之间的差异。一件很清楚的事情是，功率不会随着 ICC 的增加而降低，这是我们所期望的。所以编码有问题……这与计算 ICC 的方式有关吗？ICC 的增加要么是医院间差异的增加，要么是医院内差异的减少，或两者兼而有之。

不知道如何进行……欢迎评论！

编辑 1：我想看看观察到的ICC内的力量并不公平。我应该看看真正的ICC下的力量。我想我最大的问题是如何使用固定的底层 ICC 模拟数据集......

r simulation hierarchical-data mixed-models sample-size

2015-02-25T03:14:27.590

0 投票

1 回答

4938 浏览

python - Is there a good way to display sample size on grouped boxplots using Python Matplotlib

I could get the size info using groupby and add text to the corresponding location. But I can't help thinking there's a better way as this really seems mundane, something many people would like to see...

To illustrate, the following code would generate a grouped boxplot

boxplot What I'd like is to show the sample size of each class A and B, namely 24 and 76 respectively. It could appear as legend or somewhere near the boxes, either is ok with me.

Thanks!

python matplotlib boxplot sample-size

2015-03-26T18:31:33.630

0 投票

1 回答

865 浏览

r - R中的pwr.chisq.test错误

我现在正在尝试估计网站转换率的 A/B 测试所需的样本量。当我的转化率值较小时，pwr.chisq.test 总是给我错误消息：

但是，如果我对 p1 和 p2 有较大的值，则此代码可以正常工作。

卡方幂计算

注意：N 是观察次数

r error-handling chi-squared sample-size

2015-05-07T15:44:50.463

0 投票

1 回答

59 浏览

machine-learning - 这个训练数据集是否足以训练和测试分类模型？

我的训练数据集仅包含 2 个具有 40 个特征的类。

在案例 1 中，第 1 类有 35 个样本，第 2 类有 700 个样本。

在案例 2 中，第 1 类有 65 个样本，第 2 类具有与上述相同的值。

我的训练数据集是否足以使用 SVM 分类器或其他分类器构建模型？

我正在使用 WEKA。测试选项是10 倍交叉验证和%66，我得到了非常好的结果。

machine-learning weka svm training-data sample-size

2015-08-03T15:42:33.380

问题标签 [sample-size]

Reference