我不确定我是否理解您的问题,但听起来您正试图询问您需要采样多少数据集元素以确保一定程度的准确性(30 是来自中心极限定理的幻数经常进来玩)。
如果是这种情况,您需要的样本量取决于置信水平和置信区间。如果您想要 95% 的置信水平和 5% 的置信区间(即,您希望从样本中确定的比例在整个数据集中的比例的 5% 范围内有 95% 的置信度),您最终需要一个样本大小不超过 385 个元素。置信水平越大,您想要生成的置信区间越小,您需要的样本量就越大。
如果您只想计算数字,这里有一个关于确定样本量的数学
和一个方便的样本量计算器的很好的讨论。