问题标签 [sample-size]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
decision-tree - 坏样本和好样本的随机抽样样本量
我现在有一个非常大的数据集。响应变量是二进制 1/0。不良人口规模仅占整个数据集的一小部分。良好的人口规模为 8,000,000。标记为 1 的不良人口规模仅为 7,000。
我使用了决策树,该决策树将特征作为输入,然后将个体分类为 1 或 0。
因为人口规模真的很大。R 无法有效地处理所有数据。所以我决定随机抽取一些好的样本。但我想保留所有坏样本。所以我选择了 8000 个好的样本,并包含了所有的 7000 个坏样本。因此,我有 15,000 个样本。我将它们随机分成训练和测试数据集。在训练集上训练决策树后,我将测试数据拟合到训练模型中,结果各不相同。
但是,我真的很担心这个模型现在如何适用于整个人群。虽然我比较了好样本和好总体的不同变量条件下的分布,但是好样本的分布与好总体非常一致。
因为好样本和坏样本在采样数据中的权重相等,所以“BAD”的效果在训练模型时被夸大了,我认为如果整个数据适合模型,“BAD”就不会是“BAD” ,因为坏的部分太小了。你认为这对模型来说是一个潜在的失败问题吗?你有什么建议来解决这个问题吗?
r - R中的samplesize包,了解参数
小免责声明:我考虑在交叉验证上发布此内容,但我觉得这与软件实现更相关。如果您不同意,可以迁移该问题。
我正在尝试包samplesize。我试图破译k
函数的参数n.ttest
是什么。文档中说明了以下内容:
k 样本分数 k
这不是很有帮助。这个参数究竟是什么?
我正在执行以下计算,所有基本值都在vals
变量中,我在下面提供:
vals
包含以下值:
k
一组的比例,在观察的总数中吗?或者是别的什么?如果我是正确的,那么比例是否对应于带有sd1
or的组sd2
?
testing - 如果一组 1000 个文档是同质的,则进行简单的统计测试
我有一个简单的统计问题,希望这里有人能快速回答。
我有一组 200 个文档,每个文档应该正好包含 3 页。我的假设是所有 100% 的文档都有 3 页。我想抽取一个样本,从统计上确认该集合是同质的,这意味着所有文档都有 3 页。如果我在样本中找到一个文档,甚至有!= 3 页,我就会知道我的集合是不均匀的。
我必须查看多少文档才能 80% 确定我的集合是同质的?我的基本集中是否应该有超过 200 个文档,例如 1000 个?
r - 模拟数千个回归并获得 p 值
我希望在 R 中做一些基本的模拟来检查 p 值的性质。我的目标是查看大样本量是否趋向于小 p 值。我的想法是生成 1,000,000 个数据点的随机向量,将它们相互回归,然后绘制 p 值的分布并寻找偏斜。
到目前为止,这是我的想法:
使用取自另一个线程的代码:
关于如何为 1000 个模型甚至更多模型执行此操作的任何建议?谢谢!
r - 等效于 R 中的 PROC POWER SAMPLEFREQ
我想在 R 中进行功率计算(等效测试:2 边二项式比例)。我在 SAS 中找到了类似的代码(如下所示供您参考)。
任何人都可以通过在 R 中提供类似计算的示例代码来帮助我吗?
r - 优化全局最小值
我正在尝试使用optimize()
以下函数(Clopper-Pearson 下限)找到 n 的最小值:
以下是我尝试优化它的方法:
我在区间 [300,400] 内执行此操作,因为我怀疑该值介于其中,但最终我想在 0 和无穷大之间进行优化。似乎这个命令正在产生一个局部最小值,因为无论间隔如何,它都会将该间隔的下限作为最小值 - 这不是我怀疑的clopper-pearson。所以,我的两个问题是如何正确找到 R 中的全局最小值以及如何在任何时间间隔内找到?
r - 针对样本大小的 power.prop.test 函数的闪亮渲染输出
我对闪亮还是很陌生,我知道你的问题相当简单,但尽管做了很多研究,我似乎无法让闪亮来渲染比例测试的输出。我正在尝试制作一个脚本,其中用户输入所有参数(p1,p2,sig.level,power),并给出样本大小 n。我尝试了许多不同的方法,但我通常最终没有输出,或者错误“'n'、'p1'、'p2'、'power'和'sig.level'中的一个必须为NULL” . 任何帮助表示赞赏,谢谢!
到目前为止我的代码:
sampling - 需要一些参考文章来确定临床试验中的样本量
我正在从事一些临床试验研究。所以我需要一些文章来确定不同类型临床研究中的样本量。我已经用谷歌搜索过了。如果有该领域的专业人士可以向我推荐一些非常有帮助的文章。
r - longpower 包中 pct.change 参数的含义?
嘿,所以我正在尝试为纵向研究执行功率计算。我一直在使用 longpower 包。当我尝试计算 nlme 模型的样本大小时,我对 lmmpower 命令中 pct.change 参数背后的含义有些困惑。因此,例如,在以下命令中 .3 代表什么。
软件包写将其列为“感兴趣参数的试点估计的百分比变化(β,安慰剂/无效效应)”,但我无法理解它。如果有人可以用一个简单的例子来解释它,我会非常感激。也不确定这是否属于这里或经过交叉验证,如果不属于,请见谅。
python - 命名实体识别黄金标准语料库的样本量
我有一个包含 170 部荷兰文学小说的语料库,我将在其上应用命名实体识别。为了评估荷兰语的现有 NER 标记器,我想在这个语料库的随机样本中手动注释命名实体——为此我使用brat。手动注释的随机样本将作为我评估 NER 标记器的“黄金标准”。我编写了一个 Python 脚本,它在句子级别输出我的语料库的随机样本。
我的问题是:就每部小说的句子数量而言,随机样本的理想大小是多少?目前,我在每部小说中随机使用了 100 个句子,但这会导致一个包含近 21626 行的相当大的随机样本(手动注释很多,并且会导致小子的工作环境变慢)。