我目前使用 databricks 库将 CSV 文件加载到 Dataframes 中。
我正在寻找最好的通用方法来使用特定键对加载的数据帧进行组合,因为组合操作仅适用于 PairRDD。
我发现这篇文章为 Dataframes 实现了 cogroup 功能,但我想有一些不同的方法:
https://gist.github.com/ahoy-jon/b65754cde98cc48b9b38
请问你有没有遇到过这种情况?
谢谢。
我目前使用 databricks 库将 CSV 文件加载到 Dataframes 中。
我正在寻找最好的通用方法来使用特定键对加载的数据帧进行组合,因为组合操作仅适用于 PairRDD。
我发现这篇文章为 Dataframes 实现了 cogroup 功能,但我想有一些不同的方法:
https://gist.github.com/ahoy-jon/b65754cde98cc48b9b38
请问你有没有遇到过这种情况?
谢谢。