我正在尝试使用经验分布来模拟数据。例如,假设有五个结果,其概率如下面的向量所示:
PROBABILITY_VECTOR = [0.1, 0.2, 0.3, 0.25, 0.15]
PROBABILITY_VECTOR 是根据经验数据计算的 - 因此对于该向量中的第一个类别,虽然平均概率为 0.1,但样本之间存在相当大的差异。同样,最后一个类别,虽然所有样本的平均值为 0.15,但存在相当大的差异。概率为 0.3 和 0.25 的中间类别相当紧凑。
我使用 PROC IML,带有以下语句:
CALL RANDSEED(12345);
CALL RANDGEN(SAMPLE, "TABLE", PROBABILITY_VECTOR);
当我这样做时,所有模拟结果的平均值与概率向量一致,正如您所期望的那样。但是,如果我希望我的模拟试验也显示我在数据的某些类别中观察到的广泛差异,我该怎么做?有任何想法吗?