如何有效地比较 Spark 中匹配的同类群组?
在 python 中,对于高度不平衡的数据集中的少数类的每个观察,k
可以以一种相当简单的方式实现对多数类的采样观察(即按年龄和性别为每个病人匹配一个健康人):
提高性能,计算与 pandas或python中的特定条件匹配的随机样本每组 1:1 分层抽样
但是如何在 spark 中扩展呢?天真地,带有过滤器的自连接应该可以工作。但是由于生成了太多的元组,这失败了。
有更聪明的策略吗?也许像 LSH 这样的智能哈希?
如何有效地比较 Spark 中匹配的同类群组?
在 python 中,对于高度不平衡的数据集中的少数类的每个观察,k
可以以一种相当简单的方式实现对多数类的采样观察(即按年龄和性别为每个病人匹配一个健康人):
提高性能,计算与 pandas或python中的特定条件匹配的随机样本每组 1:1 分层抽样
但是如何在 spark 中扩展呢?天真地,带有过滤器的自连接应该可以工作。但是由于生成了太多的元组,这失败了。
有更聪明的策略吗?也许像 LSH 这样的智能哈希?