我正在寻找一种工具,可以让我生成具有某些统计属性的数据集。例如,假设我想生成 100 万个具有 x 个异常值的整数,用于测试。
是否有任何工具可以生成这样的测试数据集?我不一定需要任何花哨的东西,只需要一些基本功能。
我正在寻找一种工具,可以让我生成具有某些统计属性的数据集。例如,假设我想生成 100 万个具有 x 个异常值的整数,用于测试。
是否有任何工具可以生成这样的测试数据集?我不一定需要任何花哨的东西,只需要一些基本功能。
最简单的技术,至少在数学上最容易理解,是接受-拒绝算法算法。
来自 apache commons 的 Math有一些工具可用于从简单的概率分布生成数据。实际上,使用您正在使用的任何系统的 random() 功能来滚动您自己的这些生成函数的变体非常容易。假设 random() 返回一个介于 0 和 1 之间的均匀分布的随机数,您只需将其通过任何分布的逆累积分布函数即可获得所需的随机数。如果你需要一些非常花哨的东西,你可以使用马尔可夫链。