google-cloud-dataproc - 有没有办法使用 Data Fusion 处理驻留在 GCS 中的 INT96 parquet 类型的 parquet 文件？

翻译自：https://stackoverflow.com/questions/57764636 2019-09-03T03:18:03.367

384 次

我想使用 Data Fusion 将驻留在 GCS 中的 INT96 parquet 类型的 parquet 文件加载到 BigQuery。

使用 GCS 广告 BigQuery 组件创建了一个管道，没有任何 Wrangler，因为 Wrangler 不支持 parquet 格式。

“MapReduce 程序 'phase-1' 失败并出现错误：MapReduce JobId job_1567423947791_0001 失败。请查看系统日志以获取更多详细信息”

Q.1:- 我们可以查看此作业 ID 的详细 Map reduce 日志吗？我知道我们可以在 Cloudera 支持的 Apache Hadoop 中做到这一点。

Q.2：- 没有牧马人的失败不仅发生在镶木地板的情况下，甚至发生在纯文本文件的情况下。牧马人是强制性的吗？

Q.3：- 当我们尝试使用 Spark 引擎而不是 Map Reduce 时，它导致失败原因显示为“INT96 尚未实现”。有什么办法可以克服这个错误吗？没有 INT96 字段的 Parquet 文件已成功处理。

0 回答 0