1

我想根据它们的相似性加入两个巨大的数据框。我尝试使用近似连接。然而,任务在一段时间后卡住并最终失败。

4

1 回答 1

0

有多种方法可以做到:

  1. 增加集群大小
  2. 如果一个数据集比另一个小很多,则使用广播连接
  3. 使用阻塞技术
  4. 如果该选项可用,请使用 Deltalakes
于 2019-07-19T13:44:17.190 回答