在 Spark 中,可以设置一些 hadoop 配置设置,例如
System.setProperty("spark.hadoop.dfs.replication", "1")
这行得通,复制因子设置为 1。假设是这种情况,我认为这种模式(将“spark.hadoop.”添加到常规 hadoop 配置属性中)也适用于 textinputformat.record.delimiter:
System.setProperty("spark.hadoop.textinputformat.record.delimiter", "\n\n")
然而,火花似乎只是忽略了这个设置。我是否textinputformat.record.delimiter
以正确的方式设置?有没有更简单的方法来设置textinputformat.record.delimiter
. 我想避免自己写InputFormat
,因为我真的只需要获取由两个换行符分隔的记录。