0

我有一组多变量实例,我需要从这些实例中提取一个有代表性的集合;例如,如果我有 100,000 个多元实例,我想提取 1000 个代表原始分布的实例。我使用拉丁超立方抽样和随机抽样来提取两个代表集,现在我想检查这两个代表集与原始集的相关性有多大。

如果我进一步详细说明;

我有 100,000 个多变量实例(我们称之为 A)

我从“A”派生了两个有代表性的样本(每个集合将有 1000 个实例;我们称这两个集合为 B 和 C)

我想检查“B”和“C”是否保留了原始“A”的分布。

提前非常感谢!

4

1 回答 1

1

这更像是一个统计问题,但这里有一个大纲。通常你会使用卡方检验来比较分布。基本步骤如下。

  1. 对每个数据集进行分箱。尝试设置垃圾箱,使每个垃圾箱中至少有 5 个或更多样本。(对所有数据集使用相同的 bin)。

  2. 使用大样本“A”来确定每个 bin 中的预期样本数(称为 f_e)。(顺便说一句。请注意,任何特定 bin 的 f_e 将是该特定 bin 中样本数量的1/100,因为样本 A 包含 B 或 C 的数据点的 100 倍)。

  3. 要测试其中一个样本(比如 B)计算总和: S = (f_o - f_e)^2/fe的所有 bin 的总和,其中 f_o 是 bin 中观察到的频率。

  4. 这个总和是一个卡方变量,其自由度比您使用的 bin 总数小一。

  5. 计算1 - chi2cdf(S,dof)。这是一个总和大于或大于您获得的总和 (S) 的概率,纯粹是由于随机变化(即,即使分布相同)而发生的。因此,较小的结果(接近 0)意味着分布可能不同,而较大的结果(接近 1)意味着它们不太可能有显着差异。

可能有一个库函数可以完成上述所有操作。IDK,因为我很久没有使用任何统计库了。

于 2013-04-08T18:05:52.640 回答