“sample-size”的相关标签问题

0 投票

0 回答

422 浏览

decision-tree - 坏样本和好样本的随机抽样样本量

我现在有一个非常大的数据集。响应变量是二进制 1/0。不良人口规模仅占整个数据集的一小部分。良好的人口规模为 8,000,000。标记为 1 的不良人口规模仅为 7,000。

我使用了决策树，该决策树将特征作为输入，然后将个体分类为 1 或 0。

因为人口规模真的很大。R 无法有效地处理所有数据。所以我决定随机抽取一些好的样本。但我想保留所有坏样本。所以我选择了 8000 个好的样本，并包含了所有的 7000 个坏样本。因此，我有 15,000 个样本。我将它们随机分成训练和测试数据集。在训练集上训练决策树后，我将测试数据拟合到训练模型中，结果各不相同。

但是，我真的很担心这个模型现在如何适用于整个人群。虽然我比较了好样本和好总体的不同变量条件下的分布，但是好样本的分布与好总体非常一致。

因为好样本和坏样本在采样数据中的权重相等，所以“BAD”的效果在训练模型时被夸大了，我认为如果整个数据适合模型，“BAD”就不会是“BAD” ，因为坏的部分太小了。你认为这对模型来说是一个潜在的失败问题吗？你有什么建议来解决这个问题吗？

2015-08-06T00:37:05.287

0 投票

1 回答

295 浏览

r - R中的samplesize包，了解参数

小免责声明：我考虑在交叉验证上发布此内容，但我觉得这与软件实现更相关。如果您不同意，可以迁移该问题。

我正在尝试包samplesize。我试图破译k函数的参数n.ttest是什么。文档中说明了以下内容：

k 样本分数 k

这不是很有帮助。这个参数究竟是什么？

我正在执行以下计算，所有基本值都在vals变量中，我在下面提供：

vals包含以下值：

k一组的比例，在观察的总数中吗？或者是别的什么？如果我是正确的，那么比例是否对应于带有sd1or的组sd2？

r sample-size

2015-11-09T15:51:44.287

0 投票

2 回答

35 浏览

testing - 如果一组 1000 个文档是同质的，则进行简单的统计测试

我有一个简单的统计问题，希望这里有人能快速回答。

我有一组 200 个文档，每个文档应该正好包含 3 页。我的假设是所有 100% 的文档都有 3 页。我想抽取一个样本，从统计上确认该集合是同质的，这意味着所有文档都有 3 页。如果我在样本中找到一个文档，甚至有！= 3 页，我就会知道我的集合是不均匀的。

我必须查看多少文档才能 80% 确定我的集合是同质的？我的基本集中是否应该有超过 200 个文档，例如 1000 个？

testing statistics sample-size

2015-12-07T17:56:44.937

0 投票

1 回答

75 浏览

r - 模拟数千个回归并获得 p 值

我希望在 R 中做一些基本的模拟来检查 p 值的性质。我的目标是查看大样本量是否趋向于小 p 值。我的想法是生成 1,000,000 个数据点的随机向量，将它们相互回归，然后绘制 p 值的分布并寻找偏斜。

到目前为止，这是我的想法：

使用取自另一个线程的代码：

关于如何为 1000 个模型甚至更多模型执行此操作的任何建议？谢谢！

r regression p-value sample-size simulation

macworthy

2016-04-24T05:21:06.493

0 投票

0 回答

287 浏览

r - 等效于 R 中的 PROC POWER SAMPLEFREQ

我想在 R 中进行功率计算（等效测试：2 边二项式比例）。我在 SAS 中找到了类似的代码（如下所示供您参考）。

任何人都可以通过在 R 中提供类似计算的示例代码来帮助我吗？

r sample-size

2016-06-07T12:53:18.607

0 投票

1 回答

1143 浏览

r - 优化全局最小值

我正在尝试使用optimize()以下函数（Clopper-Pearson 下限）找到 n 的最小值：

以下是我尝试优化它的方法：

我在区间 [300,400] 内执行此操作，因为我怀疑该值介于其中，但最终我想在 0 和无穷大之间进行优化。似乎这个命令正在产生一个局部最小值，因为无论间隔如何，它都会将该间隔的下限作为最小值 - 这不是我怀疑的clopper-pearson。所以，我的两个问题是如何正确找到 R 中的全局最小值以及如何在任何时间间隔内找到？

r optimization confidence-interval sample-size

2016-06-10T17:48:30.883

0 投票

1 回答

260 浏览

r - 针对样本大小的 power.prop.test 函数的闪亮渲染输出

我对闪亮还是很陌生，我知道你的问题相当简单，但尽管做了很多研究，我似乎无法让闪亮来渲染比例测试的输出。我正在尝试制作一个脚本，其中用户输入所有参数（p1，p2，sig.level，power），并给出样本大小 n。我尝试了许多不同的方法，但我通常最终没有输出，或者错误“'n'、'p1'、'p2'、'power'和'sig.level'中的一个必须为NULL” . 任何帮助表示赞赏，谢谢！

到目前为止我的代码：

r statistics shiny sample-size

2016-06-17T01:27:15.780

0 投票

0 回答

29 浏览

sampling - 需要一些参考文章来确定临床试验中的样本量

我正在从事一些临床试验研究。所以我需要一些文章来确定不同类型临床研究中的样本量。我已经用谷歌搜索过了。如果有该领域的专业人士可以向我推荐一些非常有帮助的文章。

sampling sample-size

2016-09-07T04:45:09.183

0 投票

1 回答

508 浏览

r - longpower 包中 pct.change 参数的含义？

嘿，所以我正在尝试为纵向研究执行功率计算。我一直在使用 longpower 包。当我尝试计算 nlme 模型的样本大小时，我对 lmmpower 命令中 pct.change 参数背后的含义有些困惑。因此，例如，在以下命令中 .3 代表什么。

软件包写将其列为“感兴趣参数的试点估计的百分比变化（β，安慰剂/无效效应）”，但我无法理解它。如果有人可以用一个简单的例子来解释它，我会非常感激。也不确定这是否属于这里或经过交叉验证，如果不属于，请见谅。

r sample-size

2016-10-16T15:39:06.077

0 投票

2 回答

692 浏览

python - 命名实体识别黄金标准语料库的样本量

我有一个包含 170 部荷兰文学小说的语料库，我将在其上应用命名实体识别。为了评估荷兰语的现有 NER 标记器，我想在这个语料库的随机样本中手动注释命名实体——为此我使用brat。手动注释的随机样本将作为我评估 NER 标记器的“黄金标准”。我编写了一个 Python 脚本，它在句子级别输出我的语料库的随机样本。

我的问题是：就每部小说的句子数量而言，随机样本的理想大小是多少？目前，我在每部小说中随机使用了 100 个句子，但这会导致一个包含近 21626 行的相当大的随机样本（手动注释很多，并且会导致小子的工作环境变慢）。

python nlp named-entity-recognition sample-size brat

2016-11-22T13:56:37.533

问题标签 [sample-size]

Reference