0

从上周开始,我开始使用 pyathena 拉 GLUE 表。但是,我注意到的一件烦人的事情是,如果我编写如下所示的代码,有时它会工作并返回一个 pandas 数据帧,但有时,这段代码将在物理数据(镶木地板)的文件夹中创建一个 csv 和一个 csv 元数据) 存储在 S3 中并在 GLUE 中注册。

我知道如果你使用熊猫游标,它可能会以这两个文件结束,但我只是想知道我是否可以在没有这两个文件的情况下访问数据,因为每次在 S3 中生成这两个文件时,我的读入过程都会失败。

谢谢!

import os
access_key_id = os.getenv('AWS_ACCESS_KEY_ID')
secret_access_key = os.getenv('AWS_SECRET_ACCESS_KEY')
connect1 = connect(s3_staging_dir='s3://xxxxxxxxxxxxx')

df = pd.read_sql("select * from abc.table_name", connect1)
df.head()
4

1 回答 1

0
  1. 去雅典娜
  2. 单击设置 -> 工作组名称 -> 编辑工作组
  3. 更新“查询结果位置”
  4. 点击“覆盖客户端设置”

注意:如果您没有为您的 Athena 环境设置任何其他工作组,您应该只找到一个名为“Primary”的工作组。

这应该可以解决您的问题。有关更多信息,您可以阅读:

https://docs.aws.amazon.com/athena/latest/ug/querying.html

于 2020-02-14T00:54:41.427 回答