问题标签 [amazon-athena]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
19368 浏览

sql - 如何获取输入文件名作为 AWS Athena 外部表中的列

我在 AWS Athena 中创建了外部表来查询 S3 数据,但是,位置路径有 1000 多个文件。所以我需要将记录的相应文件名显示为表格中的一列。

简而言之,我需要知道 AWS Athena Presto 中的 INPUT__FILE__NAME(hive) 等效项或任何其他实现相同目的的方法。

0 投票
0 回答
348 浏览

amazon-web-services - 对象具有随机前缀时的 Athena 分区

语境:

我们想使用 Athena 来查询 S3 存储桶,该存储桶遵循 AWS 建议的最佳实践,即使用均匀分布的值作为对象名称的前缀

该数据集为 40TB,包含 850k 个文件和 140k 个分区。我们的分区限制已增加到 250k。

问题:

可以msck repair table_name在这种结构中自动分区数据,还是因为我们使用前缀,所以我们是否应该为每个键手动定义每个分区?

实验:

我们已经测试了创建表并应用msck了以下结果:

LOCATION 's3://datasets-daily/-->msck超时;SELECT *什么都不返回

LOCATION 's3://datasets-daily/*/-->msck快速完成;SELECT *什么都不返回

在第一种情况下,查询在十小时后超时:

2017/05/22 20:57:36 UTC-5 MSCK REPAIR TABLE datasets_daily N/A FAILED 36003.56 0KB

0 投票
1 回答
430 浏览

postgresql - 我应该使用哪些 AWS 服务来查询多个小 CSV 文件数据(经济高效的方式)

我的 Postgres DB 具有以下格式的每日增加数据(每天添加约 500 行)

每一天结束,我都可以将这些数据作为 CSV 文件写入 AWS S3 每个 CSV 文件都包含当天上述格式的数据。10May.csv、11May.csv 12May.csv 等等。

这些文件每个几乎都只有 25 KB。

我想将上述数据存储在AWS中,并允许客户端直接获取过滤后的N行

例如:客户端可以在5 月 10 日上午 11 点到5 月 11 日下午 3 点之间请求数据

基本上我需要在多个 CSV 文件上模拟这个查询:

到目前为止我发现的相关内容:

  1. AWS Athena -> 读取 csv 并查询然后返回结果 [每次扫描 10MB 的最低费用 :(]
  2. AWS Gateway -> AWS Lambda fn -> 从 S3 读取文件并返回结果

对于这种情况有什么更好的方法。70% 的查询需要多天的数据[读取多个 csv 文件]。

那么我应该将所有数据附加到单个文件中并使用 Athena 吗?

或者我应该得到一个带有 presto 的 EC2 吗?

或者任何其他适合这种需求的架构?

我愿意接受建议,如果需要任何其他详细信息,请告诉我?

0 投票
1 回答
50557 浏览

amazon-web-services - AWS Athena 和 date_format

我在使用 Amazon Athena 服务格式化时间戳时遇到了一些问题。

select date_format(current_timestamp, 'y')

只返回 'y' (字符串)。

我发现在 Amazon Athena 中格式化日期的唯一方法是使用 trough ++CONCAT函数,如下所示:YEARMONTHDAY

select CONCAT(cast(year(current_timestamp) as varchar), '_', cast(day(current_timestamp) as varchar))

0 投票
2 回答
4429 浏览

amazon-web-services - AWS Athena (JSON) 的 SerDe 属性列表

我正在测试 AWS 的 Athena 产品,目前运行良好。但我想知道 SerDe 属性列表。我已经搜索了很远,但找不到它。例如,我正在使用这个"ignore.malformed.json" = "true",但我很确定还有很多其他选项可以调整查询。

例如,我找不到有关“路径”属性的作用的信息,因此拥有完整列表将是惊人的。

我查看了 Apache Hive 文档但找不到这个,在 AWS 文档/论坛上也没有。

谢谢!

0 投票
2 回答
6863 浏览

hive - 如何从 AWS 中的 Athena 获取结果格式 JSON?

我想从 AWS 中的 Athena 获取结果值格式 JSON。

当我从 Athena 中选择时,结果格式是这样的。

有没有办法在不将 "=" 替换为 ":" 的情况下获得 JSON 格式的结果?

列格式为

0 投票
1 回答
2620 浏览

amazon-web-services - 如何在 AWS 中查看 Athena 的分区列表?

我想检查 Athena 中的分区列表。

我使用了这样的查询。

但我想搜索存在的特定表。

所以我使用了如下查询,但没有返回结果。

因为 dt 也包含小时数据。

那么当我输入“2010-03-03”然后搜索“2010-03-03-01”、“2010-03-03-02”时,有什么方法可以搜索吗?

我必须像这样分开分区吗?

并且 show partitions table_name 在 Hive 中仅返回 500 行。雅典娜也一样吗?

0 投票
2 回答
2292 浏览

hadoop - 更新分区的最佳方法是什么?

我想使用下面的代码更新分区。

(我不能使用其他选项,例如刷新语句)

但我不知道更新分区的最佳方法。

1)我每分钟运行一次该代码。

2)我使用 show 命令选择分区,然后如果分区不存在,则运行该代码。

哪个是更新分区的最佳方法(其他选项可以),所以搜索数据没有限制?

你能给我一个建议吗?

0 投票
1 回答
549 浏览

java - Datapipeline 中的 AWS Athena JDBC Jar 使用引发 Java 版本错误

我正在尝试使用 Athena JDBC 连接在 AWS 数据管道中运行 sqlactivity,但是在运行管道时出现“UnsupportedClassVersionError”错误。

我从博客中获得了一些信息(http://javarevisited.blogspot.com/2015/05/fixing-unsupported-majorminor-version.html),但我不清楚的部分是

Athena Class 有 Build-Jdk: 1.8.0_60

我的系统有Java版本:1.8.0_71

所以我不确定为什么版本不匹配。另外我的系统中只安装了 JRE,没有 JDK。我对java完全陌生,非常感谢任何帮助。

Athena JDBC 文件名:AthenaJDBC41-1.0.1.Jar

JDBC 驱动程序类:com.amazonaws.athena.jdbc.AthenaDriver

数据管道错误消息:

错误 ID:ActivityFailed:UnsupportedClassVersionError

错误消息:com/amazonaws/athena/jdbc/AthenaDriver:不支持的 major.minor 版本 52.0

0 投票
1 回答
5932 浏览

amazon-web-services - AWS Athena 查询能否定期运行(即按计划)?

是否支持按计划运行 Athena 查询?我们希望每天查询一些数据,并转储一个汇总的 CSV 文件,但最好是自动安排。