我有一组多变量实例,我需要从这些实例中提取一个有代表性的集合;例如,如果我有 100,000 个多元实例,我想提取 1000 个代表原始分布的实例。我使用拉丁超立方抽样和随机抽样来提取两个代表集,现在我想检查这两个代表集与原始集的相关性有多大。
如果我进一步详细说明;
我有 100,000 个多变量实例(我们称之为 A)
我从“A”派生了两个有代表性的样本(每个集合将有 1000 个实例;我们称这两个集合为 B 和 C)
我想检查“B”和“C”是否保留了原始“A”的分布。
提前非常感谢!