amazon-s3 - Amazon S3 parquet 文件 - 传输到 GCP / BQ

Question

大家，早安。我有一个 GCS 存储桶，其中包含从我们的 Amazon S3 存储桶传输的文件。这些文件采用 .gz.parquet 格式。我正在尝试使用传输功能设置从 GSC 存储桶到 BigQuery 的传输，但是我遇到了 parquet 文件格式的问题。

当我创建传输并将文件格式指定为 Parquet 时，我收到一条错误消息，指出数据不是 Parquet 格式。当我尝试在 CSV 中指定文件时，奇怪的值出现在我的表中，如链接的图像所示：

我尝试了以下 URI：

存储桶名称/文件夹 1/文件夹 2/dt={run_time|"%Y-%m-%d"}/b=1/geo/*.parquet。文件格式：镶木地板。结果：文件不是拼花格式。
存储桶名称/文件夹 1/文件夹 2/dt={run_time|"%Y-%m-%d"}/b=1/geo/*.gz.parquet。文件格式：镶木地板。结果：文件不是拼花格式。
存储桶名称/文件夹 1/文件夹 2/dt={run_time|"%Y-%m-%d"}/b=1/geo/*.gz.parquet。文件格式：CSV。结果：转移完成，但价值很奇怪。
存储桶名称/文件夹 1/文件夹 2/dt={run_time|"%Y-%m-%d"}/b=1/geo/*.parquet。文件格式：CSV。结果：转移完成，但价值很奇怪。

有人对我应该如何进行有任何想法吗？先感谢您！

score 1 · Accepted Answer

有一个专门的文档解释了如何将 Parquet 数据从云存储桶复制到 Big Query，如下所示。如果它仍然无法解决您的问题，请您通过它并更新我们。

https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-parquet

问候，安布。

score 0 · Accepted Answer

查看 URI 的外观，您正在寻找的页面就是这个页面，用于将 hive 分区 parquet 文件加载到 BigQuery。

您可以在 Cloud Shell 中尝试以下操作：

bq load --source_format=PARQUET --autodetect \
--hive_partitioning_mode=STRINGS \
--hive_partitioning_source_uri_prefix=gs://bucket-name/folder-1/folder-2/ \
dataset.table `gcs_uris`

amazon-s3 - Amazon S3 parquet 文件 - 传输到 GCP / BQ

2 回答 2

Related

Reference