csv - 为什么我的 PyAthena 在读取 GLUE 表时会在 s3 位置生成 csv 和 csv 元数据文件？

Question

从上周开始，我开始使用 pyathena 拉 GLUE 表。但是，我注意到的一件烦人的事情是，如果我编写如下所示的代码，有时它会工作并返回一个 pandas 数据帧，但有时，这段代码将在物理数据（镶木地板）的文件夹中创建一个 csv 和一个 csv 元数据) 存储在 S3 中并在 GLUE 中注册。

我知道如果你使用熊猫游标，它可能会以这两个文件结束，但我只是想知道我是否可以在没有这两个文件的情况下访问数据，因为每次在 S3 中生成这两个文件时，我的读入过程都会失败。

谢谢！

import os
access_key_id = os.getenv('AWS_ACCESS_KEY_ID')
secret_access_key = os.getenv('AWS_SECRET_ACCESS_KEY')
connect1 = connect(s3_staging_dir='s3://xxxxxxxxxxxxx')

df = pd.read_sql("select * from abc.table_name", connect1)
df.head()

score 0 · Accepted Answer

去雅典娜
单击设置 -> 工作组名称 -> 编辑工作组
更新“查询结果位置”
点击“覆盖客户端设置”

注意：如果您没有为您的 Athena 环境设置任何其他工作组，您应该只找到一个名为“Primary”的工作组。

这应该可以解决您的问题。有关更多信息，您可以阅读：

https://docs.aws.amazon.com/athena/latest/ug/querying.html

csv - 为什么我的 PyAthena 在读取 GLUE 表时会在 s3 位置生成 csv 和 csv 元数据文件？

1 回答 1

Related

Reference