我有一个大数据集(假设有 10,000 个变量,每个变量约有 1000 个元素),我们可以将其视为 2D 列表,例如:
[[variable_1],
[variable_2],
............
[variable_n]
]
我想从该数据中提取高度相关的变量对。我希望“高度相关”成为我可以选择的参数。
我不需要提取所有对,也不一定想要最相关的对。只要有一种有效的方法可以让我得到高度相关的配对,我就会很高兴。
此外,如果一个变量的出现不超过一对,那就太好了。尽管这可能并不重要。
当然,找到这样的对有一种蛮力的方法,但对我来说太慢了。
我用谷歌搜索了一下,发现了一些关于这个问题的理论工作,但我无法找到一个可以做我正在寻找的包。我主要在 python 中工作,所以 python 中的包将是最有帮助的,但如果 R 中存在一个包,它可以满足我的需求,它会很棒。
有谁知道在 Python 或 R 中执行上述操作的包?还是有其他想法?
先感谢您