问题标签 [pyathena]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
15342 浏览

python - 通过 pyathena 运行 aws athena 查询

此查询在 Athena 的前端运行良好:

我正在使用此 Python 代码通过 Python/pyathena 运行上述查询

不幸的是我得到:

我想是我的介绍:

有任何想法吗?

PS:

我试过了:

得到:

为什么facebook会出现在这?

我也试过:

同样的错误信息...

0 投票
1 回答
1463 浏览

python - 雅典娜使用python创建表

全部:

在尝试使用带有 python 的 pyathenajdbc 创建外部表时,出现以下错误:

在 python 2.7 中使用 pyathenajdbc 驱动程序创建外部表时,以下是错误:

"""...('skip.header.line.count'='1');""" % (self.sch_name,self.tbl_nm,full_s3_abs_path) pyathenajdbc.error.DatabaseError: java.sql.SQLException: 失败运行查询

0 投票
2 回答
3273 浏览

amazon-athena - 将 Amazon Athena 查询结果存储到新表中

我需要将 Amazon Athena 查询结果存储到 New Amazon Athena Table 中。

0 投票
0 回答
1455 浏览

r - 当您没有完整的值列表或列表太长时,如何将行转换为 Athena 中的列

就像下面的亚马逊雅典娜。

数据

分组数据

我已将上述数据与 ID 和 CODE 进行分组,以获得组合的频率/计数,如下所示。

所需的转换

所需的数据转换:我正在尝试将 CODE 列中的行转换为标题行并创建一个矩阵/数据框。

在较小的数据集上,我已成功使用 R“Table”命令,它工作正常。但现在我有 2700 万个唯一 ID,有 300 个唯一列,2.2 亿行。所以我的最终矩阵将有 27Mrows X 350 列

我的问题:

  1. 我可以编写 Athena 中的查询来实现此结果。
  2. 我可以使用 R 吗?但是 Table 命令不支持它需要找到一个库来并行化数据。然后使用 reshape2 包。即使这样,我也不知道该怎么做。
  3. 火花是一个更好的解决方案。如果是这样,我该怎么做。我已经在 EC2 实例上设置了 spark 并将分组数据从 S3 下载到 EC2 tmp 文件夹作为 CSV 其 8GB 数据文件。
  4. 我应该对原始数据集进行操作还是使用按数据集分组。

请给我指点。我是所有这些技术的新手,并且正在弄清楚这一点。

0 投票
1 回答
1065 浏览

amazon-web-services - 在 SQLalchemy 中访问 Athena 时访问被拒绝

使用 pyathena 和 SQLalchemy,我连接到 AWS Athena。如果我使用 AWS 管理员的密钥,一切正常,可以查询数据。如果我使用具有 AmazonAthenaFullAccess 和 AWSQuicksightAthenaAccess 权限的 aws 用户的密钥,我会收到拒绝访问。我拥有输出 S3 的权限,并且 Athena 访问公共数据集 S3 存储桶。我缺少什么权限?

谢谢

0 投票
1 回答
1294 浏览

amazon-athena - 为什么 pyathena 在 Athena 运行时不能处理运行时间较长的查询?

我有一个查询,它通过扫描 90GB 数据在 43 秒内(直接)在 Athena 上运行。然后我使用 pyathena 运行相同的查询(我在 EMR 上的 jupyter notebook 中使用它),它只是没有完成运行(并且永远不会返回任何结果)。我已经针对较小的查询(通过设置限制 100)对其进行了测试,并且它可以工作。为什么 pyathena 比直接在 Athena 上运行查询要慢得多?

0 投票
2 回答
4577 浏览

python-3.x - RuntimeError: Unable to start JVM because of Deprecated: convertStrings

我在更新 Amazon Athena 表的 EMR 集群上运行了一个自动化的 Python 作业。

直到几天前它运行良好(在 python 2.7 和 3.7 上)。这是脚本:

athena-config.yaml 有一个暂存目录和一些 Athena 语句。

这是错误:

据我了解 convertStrings 被弃用的问题。谁能帮我解决这个问题?我不明白为什么这""")会发生在回溯之前,以及过去几天发生了什么改变来破坏代码。谢谢!

0 投票
0 回答
266 浏览

google-colaboratory - 无法从 Google Colaboratory 查询 AWS athena

我想athena通过pyathenaon对 AWS 执行查询Google Colaboratory。但NoCredentialsError会发生。

NoCredentialsError:无法找到凭据

由于运行相同的代码sagemaker会成功,我认为代码和用户权限没有问题。有谁知道解决方案?

0 投票
1 回答
411 浏览

csv - 为什么我的 PyAthena 在读取 GLUE 表时会在 s3 位置生成 csv 和 csv 元数据文件?

从上周开始,我开始使用 pyathena 拉 GLUE 表。但是,我注意到的一件烦人的事情是,如果我编写如下所示的代码,有时它会工作并返回一个 pandas 数据帧,但有时,这段代码将在物理数据(镶木地板)的文件夹中创建一个 csv 和一个 csv 元数据) 存储在 S3 中并在 GLUE 中注册。

我知道如果你使用熊猫游标,它可能会以这两个文件结束,但我只是想知道我是否可以在没有这两个文件的情况下访问数据,因为每次在 S3 中生成这两个文件时,我的读入过程都会失败。

谢谢!

0 投票
1 回答
4099 浏览

amazon-web-services - 从 Notebook 实例查询 Athena 中的表/数据库

我为不同的团队开发了不同的 Athena 工作组,以便我可以将他们的查询和他们的查询结果分开。用户希望从他们的笔记本实例 (JupyterLab) 中查询他们可用的表。我很难找到成功满足从用户特定工作组查询表的要求的代码。我只找到了将从主工作组查询表的代码。

我目前使用的代码添加在下面。

此代码不起作用,因为用户只能从其特定工作组执行查询,因此在运行此代码时会出错。它也不涵盖在用户特定工作组中分离用户查询的要求。

关于如何添加更改代码以便我可以从笔记本实例在特定工作组中运行查询的任何建议?