excel - AWS 数据湖摄取

Question

您是否需要使用胶水摄取 excel 和其他专有格式，或者允许胶水在您的 s3 存储桶中爬行以在您的数据湖中使用这些数据格式？

我已经浏览了“ AWS 云上的数据湖基础”文档，但对于将数据导入湖中，我还是一头雾水。我有一个数据提供者，他们的系统上存储了大量数据作为 excel 和访问文件。

根据流程，他们会将数据上传到提交 s3 存储桶中，这将引发一系列操作，但是没有将数据的 etl 转换为可以与其他工具一起使用的格式。

使用这些文件是否需要对存储桶中提交的数据使用粘合，或者是否有其他方法可以使这些数据可用于其他工具，例如 Athena 和红移光谱？

感谢您对这个主题的任何启发。

-圭多

score 3 · Accepted Answer

我没有看到可以将 excel 数据直接带到数据湖。在加载到 Data Lake 之前，您可能需要转换为 CSV/TSV/Json 或其他格式。

Redshift Spectrum 支持的格式：

雅典娜支持的文件格式：

您需要将文件上传到 S3 以使用 Athena 或 Redshift Spectrum 甚至 Redshift 存储本身。

将文件上传到 S3：

如果您有更大的文件，则需要使用 S3 分段上传来更快地上传。如果您想要更快的速度，您需要使用 S3 加速器来上传您的文件。

使用 Athena 查询大数据：

您可以使用 Athena 从 S3 位置创建外部表。创建外部表后，使用 Athena Sql 引用来查询您的数据。

使用 Redshift Spectrum 查询大数据：

与 Athena 类似，您可以使用 Redshift 创建外部表。开始查询这些表并在 Redshift 上获取结果。

Redshift 有很多商业工具，我用的是 SQL Workbench。它是免费的开源且坚如磐石，由 AWS 提供支持。

将数据复制到 Redshift：

此外，如果您想将数据存储到 Redshift，您可以使用复制命令从 S3 中提取数据并将其加载到 Redshift。

复制命令示例：

Redshift 集群大小和节点数：

在创建 Redshift 集群之前，请检查所需的大小和所需的节点数。更多数量的节点使查询并行运行。另一个重要因素是您的数据分布情况。（分布键和排序键）

我对 Redshift 有很好的体验，可能需要一些时间才能加快速度。

希望能帮助到你。

1 回答 1