假设我有一个数据集 S,其中包含不同工作的服务时间,例如S={t1,t2,t3,...,tn}
,其中 ti 是第 i 个工作的服务时间;和 n 我的数据集中的总数。这个 S 只是总体中的一个样本。这里是 300k。我想研究长时间服务的影响,因为有些工作需要很长时间,有些则不需要。我的直觉是根据从真实系统中收集的数据来研究这种影响。研究中的系统有数以百万计的工作,这个数字每几秒钟就会增加 100 个新工作。此外,服务时间是通过对本地机器上的作业进行基准测试来衡量的。因此,实际上不断扩展数据集的成本很高。因此,我决定随机拿起 300k。
我正在进行模拟实验,我必须使用它们的服务时间(比如数百万)生成大量工作,然后进行一些其他计算。
如何在我的模拟中使用 S 作为总体,我遇到了以下问题:
1-使用 S 本身。我可以使用引导“带替换的样本”或“不带替换的样本”。
2-将理论分布模型拟合到S,然后从中得出。
我对么?哪种方法最好(优点和缺点)?第一种方法似乎很简单,每次只需从 S 中选择一个随机服务时间?可靠吗?任何建议都值得赞赏,因为我没有得到统计数据。