1

我正在使用 hdp 2.6.5.0-292。

在这种环境中,数据正在使用 Hive 和 pyspark 进行处理。

使用 SQL 插入,例如:

INSERT INTO table PARTITION(run_date='{run_date}') (...)  VALUES(...)

正在创建镶木地板 1.8.1,而 pyspark 数据框插入:

[df.write.mode("append").insertInto(table)]

正在提供 1.6.0。

我们如何才能同时制作 1.8.1?

creator:          parquet-mr version 1.8.1 (build 4aba4dae7bb0d4edbcf7923ae1339f28fd3f7fcf)
creator:          parquet-mr version 1.6.0 (build 6aa21f8776625b5fa6b18059cfebe7549f2e00cb)

请帮助解决此问题。

这是我的节目创建表的样子:

创建外部表 abc.xyz( ...) 分区(运行日期字符串)行格式 SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 存储为输入格式 'org.apache.hadoop.hive .ql.io.parquet.MapredParquetInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' LOCATION 'hdfs://...' TBLPROPERTIES ('spark.sql.create.version'=' 2.2 或之前版本'、'spark.sql.sources.schema.numPartCols'='1'、'spark.sql.sources.schema.numParts'='1'、'spark.sql.sources.schema.part.0' ='{...}', 'spark.sql.sources.schema.partCol.0'='run_date', 'transient_lastDdlTime'='1608546154')

4

0 回答 0