我写了一个简单的程序来请求一个巨大的数据库。为了导出我的结果,我编写了这个函数:
result.coalesce(1).write.options(Map("header" -> "true", "delimiter" > ";")).csv(mycsv.csv)
我使用该coalesce
方法只获取一个文件作为输出。问题是结果文件包含超过一百万行。所以,我无法在Excel中打开它...
因此,我考虑使用一种方法(或使用 for 循环编写我自己的函数)来创建与文件中的行数相关的分区。但我不知道我该怎么做。
我的想法是,如果我有少于一百万行,我将有一个分区。如果我有超过一百万 => 两个分区,200 万 => 3 个分区等等。
有可能做这样的事情吗?