因此,我有大约 35 GB 的 zip 文件,每个文件包含 15 个 csv 文件,我创建了一个 scala 脚本来处理每个 zip 文件和每个 zip 文件中的每个 csv 文件。
问题是在一些文件数量之后脚本午餐这个错误
错误执行程序:阶段 114.0 (TID 3145) 中任务 0.0 中的异常 java.io.IOException: java.sql.BatchUpdateException: (Server=localhost/127.0.0.1[1528] Thread=pool-3-thread-63) XCL54.T : [0] 插入键 [7243901, 7243902,
并且字符串继续所有未插入的键(记录)。
所以我发现显然(我说显然是因为我缺乏关于scala和snappy和spark的知识)正在使用的内存已满......我的问题......我如何增加内存的大小用过的?或者如何清空内存中的数据并将其保存在磁盘中?
我可以关闭开始的会话并释放内存吗?我不得不重新启动服务器,删除处理过的文件,然后我可以继续导入,但是在其他一些文件之后......再次......同样的例外
我的 csv 文件很大......最大的文件大约 1 GB,但这个异常不仅发生在大文件中,而且在累积多个文件时......直到达到某个大小......所以我在哪里更改内存使用大小?
我有 12GB 内存...