database - “大”数据集有多少？

Question

假设无限存储，其中大小/体积/物理（指标、千兆字节/太字节）仅与元素数量及其标签无关，统计模式应该已经出现在 30 个子集上，但您是否同意少于 1000 个子集太少进行测试，至少 10000 个不同的子集/“元素”、“条目”/实体是“一个大型数据集”。还是更大？谢谢

score 3 · Accepted Answer

我不确定我是否理解您的问题，但听起来您正试图询问您需要采样多少数据集元素以确保一定程度的准确性（30 是来自中心极限定理的幻数经常进来玩）。

如果是这种情况，您需要的样本量取决于置信水平和置信区间。如果您想要 95% 的置信水平和 5% 的置信区间（即，您希望从样本中确定的比例在整个数据集中的比例的 5% 范围内有 95% 的置信度），您最终需要一个样本大小不超过 385 个元素。置信水平越大，您想要生成的置信区间越小，您需要的样本量就越大。

如果您只想计算数字，这里有一个关于确定样本量的数学和一个方便的样本量计算器的很好的讨论。

database - “大”数据集有多少？

1 回答 1

Related

Reference