0

我正在 HDFS 的 csv 文件中写入配置单元表的数据。

我的蜂巢表有一CHAR(5)列。

CHAR 数据类型中的示例数据:

aaaaa
bb

火花作业后 HDFS 中 CSV 文件中的数据:

aaaaa
"bb   "

如果 CHAR 数据类型中有空格字符,它会被双引号括起来。如果没有前导/尾随空格,它工作正常(没有双引号)。

有用的代码:

SparkConf conf = new SparkConf(true).setMaster("yarn-cluster").setAppName("SAMPLE_APP");
SparkContext sc = new SparkContext(conf);
HiveContext hc = new HiveContext(sc);
DataFrame df = hc.table("testdb.tbl1");
df.printSchema();
DataFrameWriter writer = df.repartition(1).write();
writer.format("com.databricks.spark.csv").option("header", "true").save(outputHdfsFile);

我不确定这是功能还是错误。但是我可以禁用它吗?

4

0 回答 0