问题标签 [pyathena]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
63 浏览

python - SQL Datetime WHERE 子句返回错误的月份

我正在使用 pyathena 库和以下函数从 AWS Athena 中提取数据:

开始和结束参数是datetime.date可变的:

两者都是今年 11 月的日期,但是当我调用该函数时,它会返回 2020 年 1 月 22 日到 2020 年 1 月 28 日之间的所有值。

任何帮助都可以很好地解决这个问题!

0 投票
2 回答
2617 浏览

python - StartQueryExecution 操作:无法验证/创建输出存储桶

我正在尝试使用 python 对 Athena 执行查询。

示例代码

这是工作代码,但我遇到了一个不寻常的情况。

  • 有一天它会抛出一个 InvalidRequestException 错误 Error
  • 根据 DevOps 应用程序拥有所有权限,它应该可以工作。
  • 我们尝试在 AWS Athena 控制台(查询编辑器)上执行相同的查询。它在那里工作。
  • 然后我们重新运行python脚本,它没有抛出任何错误。
  • 但是在第二天,python 脚本开始抛出同样的 InvalidRequestException 错误。
  • 然后我们在 AWS Athena 控制台(查询编辑器)上执行相同的查询并重新运行 python 脚本,它开始工作。

我们观察了几天这种情况,每 24 小时 python 脚本抛出错误,然后我们在 Athena 控制台(查询编辑器)上执行查询并重新运行 python 脚本。我不明白为什么会这样,是否有任何权限问题。

权限:

0 投票
0 回答
79 浏览

python - df 上的 Athena 写入操作失败:神秘行为

我正在尝试将数据帧写入pandasAthena DB。

preds是一个有 2590 行的 DF。

失败并出现以下错误

下面的输出显示了 DF 的所有行,所以它不是很有帮助

有趣的是,通过拆分 DF 我没有这样的问题

这怎么可能?如果存在有问题的行,则不可能编写两个 DF。

0 投票
1 回答
237 浏览

amazon-athena - 从超集连接到 Athena 时出现错误代码 422

从超集连接到 Athena 时出现错误 422 UNPROCESSABLE ENTITY (superset==1.0.1) 使用以下格式连接字符串:

awsathena+rest://{aws_access_key_id}:{aws_secret_access_key}@athena.{region_name}.amazonaws.com:443/{schema_name}?s3_staging_dir={s3_staging_dir}

0 投票
1 回答
88 浏览

sql - 如何在 AWS Athena 中访问嵌套数组和 JSON

我正在尝试处理来自 Athena 中 s3 日志的一些数据,这些数据具有我无法弄清楚如何使用的复杂类型。

我有一个表,其中包含以下行:

我想将其视为(1)一个数组以提取第一个元素,然后将第一个元素作为它的 JSON。

一切都很混乱,因为数据自然是一个字符串,包含一个数组,包含 json,我什至不知道从哪里开始

0 投票
1 回答
179 浏览

amazon-web-services - 雅典娜维护秩序

有没有办法保留来自 Athena 的查询的顺序?假设 s3 存储桶或数据湖中的数据已分区并位于 parquet 文件中。每次我查询一些东西,每次的顺序都不一样。我不确定 Athena 是如何工作的,但是让多个工作人员执行性能查询并将结果组合在一起是有意义的,这将是为什么每次顺序都不同的原因。但是,如果所有数据都来自单个 parquet 文件,是否可以保留结果的顺序?

0 投票
2 回答
118 浏览

sql - 修复 SHOW TABLES IN DATABASE 名称查询中的错误

我正在尝试通过 Python 脚本列出 Amazon AWS Athena 中数据库中的所有表。这是我的脚本:

运行此程序时出错

当我在 Athena 查询编辑器中运行相同的查询时,出现错误

这是错误

我认为问题在于数据库名称中的连字符“-”。如何在查询中转义?

0 投票
0 回答
115 浏览

python - 使用 PyAthena 从 Python 查询 AWS Athena

我正在尝试使用 Pyathena 包通过 Python 查询我在 AWS Athena 中的表,但遇到以下错误:“DataNotFoundError: Unable to load data for: endpoints” 这是我正在使用的代码

0 投票
0 回答
90 浏览

amazon-athena - 更改 to_sql 方法使用的文件格式

这可以按预期工作并创建一个新表。但是数据是以只有 spark 可以读取的格式存储的。如何以 csv 格式存储数据?

我尝试 了flavor="csv"flavor="textfile"但生成的文件仍然不可读。


更新:连接字符串

0 投票
1 回答
382 浏览

python - 通过 Athena API 客户端(Boto3)执行查询时如何指定文件名?

我有一个查询字符串并使用该start_query_execution()方法,我现在可以通过 Athena 运行我的查询,并在我的 S3 存储桶中以 CSV 文件的形式获取结果。

但是,该文件的名称是一堆随机字符,我希望能够给它一个名称,以便在其他应用程序(例如 QuickSight)中引用它。

据我所知,该start_query_execution()方法仅包含以下参数:QueryStringQueryExecutionContextResultConfiguration我在其中提供我的 S3 路径。

我怎样才能给我的查询结果文件一个特定的名称?