从上周开始,我开始使用 pyathena 拉 GLUE 表。但是,我注意到的一件烦人的事情是,如果我编写如下所示的代码,有时它会工作并返回一个 pandas 数据帧,但有时,这段代码将在物理数据(镶木地板)的文件夹中创建一个 csv 和一个 csv 元数据) 存储在 S3 中并在 GLUE 中注册。
我知道如果你使用熊猫游标,它可能会以这两个文件结束,但我只是想知道我是否可以在没有这两个文件的情况下访问数据,因为每次在 S3 中生成这两个文件时,我的读入过程都会失败。
谢谢!
import os
access_key_id = os.getenv('AWS_ACCESS_KEY_ID')
secret_access_key = os.getenv('AWS_SECRET_ACCESS_KEY')
connect1 = connect(s3_staging_dir='s3://xxxxxxxxxxxxx')
df = pd.read_sql("select * from abc.table_name", connect1)
df.head()