matlab - 比较多元分布

Question

我有一组多变量实例，我需要从这些实例中提取一个有代表性的集合；例如，如果我有 100,000 个多元实例，我想提取 1000 个代表原始分布的实例。我使用拉丁超立方抽样和随机抽样来提取两个代表集，现在我想检查这两个代表集与原始集的相关性有多大。

如果我进一步详细说明；

我有 100,000 个多变量实例（我们称之为 A）

我从“A”派生了两个有代表性的样本（每个集合将有 1000 个实例；我们称这两个集合为 B 和 C）

我想检查“B”和“C”是否保留了原始“A”的分布。

提前非常感谢！

score 1 · Accepted Answer

这更像是一个统计问题，但这里有一个大纲。通常你会使用卡方检验来比较分布。基本步骤如下。

对每个数据集进行分箱。尝试设置垃圾箱，使每个垃圾箱中至少有 5 个或更多样本。（对所有数据集使用相同的 bin）。
使用大样本“A”来确定每个 bin 中的预期样本数（称为 f_e）。（顺便说一句。请注意，任何特定 bin 的 f_e 将是该特定 bin 中样本数量的1/100，因为样本 A 包含 B 或 C 的数据点的 100 倍）。
要测试其中一个样本（比如 B）计算总和： S = (f_o - f_e)^2/fe的所有 bin 的总和，其中 f_o 是 bin 中观察到的频率。
这个总和是一个卡方变量，其自由度比您使用的 bin 总数小一。
计算1 - chi2cdf(S,dof)。这是一个总和大于或大于您获得的总和 (S) 的概率，纯粹是由于随机变化（即，即使分布相同）而发生的。因此，较小的结果（接近 0）意味着分布可能不同，而较大的结果（接近 1）意味着它们不太可能有显着差异。

可能有一个库函数可以完成上述所有操作。IDK，因为我很久没有使用任何统计库了。

1 回答 1