问题标签 [pyathena]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
277 浏览

python-3.x - Python 雅典娜查询

一秒钟内可以执行多少个查询。我正在使用 python pyathena 库。

0 投票
1 回答
4600 浏览

amazon-s3 - AWS Athena 表数据更新

我已经开始测试 AWS Athena,到目前为止它看起来不错。我遇到的一个问题是关于表中数据的更新。

这是场景:为了更新表中给定日期的数据,我基本上是清空包含 CSV 文件的 S3 存储桶,并上传新文件以成为更新的数据源。但是,bucket 为空的时间段(即删除旧源并上传新源的时间)实际上是一个瓶颈,因为在此时间间隔内,任何人查询表都不会得到任何结果。

有没有解决的办法?

谢谢。

0 投票
0 回答
371 浏览

python - Pyathena 游标返回“无结果集”

我正在尝试创建 Athena 表,然后进行一些 SELECT 语句。

我已将连接移至 lambda 函数:

cursor = lambda: connect(s3_staging_dir=STG_DIR).cursor()

然后我正在做一些 DDL,创建外部 Athena 表并尝试执行 SELECT 语句:

cursor().execute("""SELECT * FROM {database}.{table} limit {records}""".format(database=database, table=table, records=n)) res = cursor().fetchall()

我收到:

pyathena.error.ProgrammingError: No result set.

但实际上数据存在于表中。

0 投票
1 回答
2858 浏览

amazon-web-services - Pyathena 模式不存在

我需要处理存储桶中特定文件夹中某个流的一些数据S3。我想在Python. 搜索了一段时间后,我找到了PyAthena正是我要找的图书馆!

我安装1.8.0PyAthena.

供您参考,我的S3存储桶位于 地区,Paris eu-west-3我的Athena数据库位于 地区Francfort eu-central-1

我使用了在文档PyAthena Doc中找到的以下代码:

一开始我不确定region_name要使用哪个,如果它应该是存储桶Paris所在的位置,还是数据库所在的位置!!S3FrancfortAthena

我尝试了这两种方法并按照我收到的错误消息,我最终使用了我的一个S3桶!但是,我不断收到有关权限的错误Glue,例如:

所以我在中添加了以下策略IAM

现在我有这个错误信息:

0 投票
1 回答
1413 浏览

python - AWS Athena PyAthena AccessDeniedException

我是 AWS 新手。我有一个用户帐户和两个角色,一个用于生产,一个用于测试。

通常我登录我的帐户并切换到 prod 角色来运行一些简单的选择查询。

现在我想用 PyAthena 在 Python 中本地使用 Athena。我尝试了 PyAthena 文档中的以下资源:

但总是有错误

如果我使用我的用户帐户运行相同的查询而不切换角色,这就是我会得到的确切错误。

profile name parameter in connect即使正确识别了env,我也尝试添加但仍然无法正常工作。

有人可以帮我如何在本地 python 代码中执行“切换”角色步骤吗?

0 投票
1 回答
279 浏览

sql - SYNTAX_ERROR: '"LastName"' 必须是聚合表达式或出现在 GROUP BY 子句中

我有两个表,main_table 和 staging_table,main_table 包含原始数据,而 staging_table 包含我必须与 main_table 数据一起添加的少数更新记录,为此我使用唯一 ID - PersonID和到达时间 -日期 下面是我能够在 SQL 中执行的查询

但是在执行 AWS Athena 时,我收到以下错误, SYNTAX_ERROR: '"LastName"' must be a aggregate expression or appear in GROUP BY 子句

0 投票
1 回答
1110 浏览

python - TypeError:没有为 java.util.Properties.setProperty(str,str) 找到匹配的重载

我试图用 PyAthenaJDBC 连接到 athena 数据库。我正在寻找有关如何执行此操作的一些信息,并尝试了以下代码:

但是当我运行此代码时,出现以下错误:

有人可以告诉我如何解决这个问题吗?

0 投票
0 回答
721 浏览

python - 错误:尝试使用 PyAthena 访问 Athena

我目前正在尝试从 AWS Athena 数据库构建数据管道,以便我的团队可以使用 Python 查询信息。但是,我遇到了权限不足的问题。

我们能够在 Tableau 中查询数据,但我们希望将其集成到我们正在开发的应用程序中。

这是我们从 PyAthena 的文档中遵循的代码。

这是由此产生的错误。

我猜这是关于 Amazon Glue 的服务器端 IAM 权限的问题。但我不确定如何解决它。

0 投票
1 回答
824 浏览

python - 如何在pyathena中循环查询?

我正在使用 pyathena 库来查询模式并将其存储在 pandas 数据框中。我有一个包含至少 30,000 个项目的列表。

例如。l1 = [1,2,3,4..... 29999,30000]

现在我想在 sql 查询中传递这个列表项。由于我不能一次传递所有 30,000 个列表项,因此,我将列表分成 30 个块,并循环传递每个块,如下所示:

注意:我尝试将其分成更少的块,但每块 1000 个项目似乎是最佳选择。

在第一次迭代中它工作正常,但对于剩余的迭代,我得到以下错误:(有时它也会进入第 2 和第 3 次迭代,但仅此而已)

0 投票
1 回答
559 浏览

python - 在 R 中,即使安装了 Boto3,也没有 Boto3 连接 Athena 的错误

我正在尝试从 R 连接到 Athena。设置“RAthena”并连接后,出现此错误:

因此,通过使用pip install,我同时安装boto3了 Python 2 和 Python 3。

但是在R,我仍然有同样的错误。然后我尝试使用install_boto()in R。它告诉我做如下:

然后我会永远留在这个Restarting R session...输出中,永远不会看到任何成功重启的说明。最后,R仍然无法检测到boto3