1

我正在使用 pyathena 库和以下函数从 AWS Athena 中提取数据:

def import_ben_datalake(ACCESS_KEY, SECRET_KEY, S3_DIR, REGION, start, end):
    conn = pyathena.connect(aws_access_key_id = ACCESS_KEY, 
                            aws_secret_access_key = SECRET_KEY,
                            s3_staging_dir = S3_DIR,
                            region_name = REGION)
    sql = f"""SELECT columns
          FROM table
          WHERE column_datetime BETWEEN PARSE_DATETIME('{start.strftime("%Y-%m-%d")}', 'YYYY-MM-DD')
                                    AND PARSE_DATETIME('{end.strftime("%Y-%m-%d")}', 'YYYY-MM-DD')"""

    df = pd.read_sql(sql, conn)
    conn.close()

    return df

开始和结束参数是datetime.date可变的:

start_test = datetime.date(2020, 11, 22)
end_test = datetime.date(2020, 11, 28)

两者都是今年 11 月的日期,但是当我调用该函数时,它会返回 2020 年 1 月 22 日到 2020 年 1 月 28 日之间的所有值。

任何帮助都可以很好地解决这个问题!

4

1 回答 1

2

按照解决我的问题的参数化查询示例:

def import_ben_datalake(ACCESS_KEY, SECRET_KEY, S3_DIR, REGION, start, end):
    conn = pyathena.connect(aws_access_key_id = ACCESS_KEY, 
                            aws_secret_access_key = SECRET_KEY,
                            s3_staging_dir = S3_DIR,
                            region_name = REGION)
    sql = """SELECT columns
             FROM table
             WHERE column.datetime BETWEEN %(start)s AND %(end)s"""

   df = pd.read_sql(sql, conn, params = {"start": start, "end": end})
   conn.close()

   return df
于 2020-12-28T19:07:06.153 回答