问题标签 [amazon-athena]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2551 问题

0 投票

2 回答

19368 浏览

sql - 如何获取输入文件名作为 AWS Athena 外部表中的列

我在 AWS Athena 中创建了外部表来查询 S3 数据，但是，位置路径有 1000 多个文件。所以我需要将记录的相应文件名显示为表格中的一列。

简而言之，我需要知道 AWS Athena Presto 中的 INPUT__FILE__NAME(hive) 等效项或任何其他实现相同目的的方法。

2017-05-16T20:56:16.300

0 投票

0 回答

348 浏览

amazon-web-services - 对象具有随机前缀时的 Athena 分区

语境：

我们想使用 Athena 来查询 S3 存储桶，该存储桶遵循 AWS 建议的最佳实践，即使用均匀分布的值作为对象名称的前缀：

该数据集为 40TB，包含 850k 个文件和 140k 个分区。我们的分区限制已增加到 250k。

问题：

可以msck repair table_name在这种结构中自动分区数据，还是因为我们使用前缀，所以我们是否应该为每个键手动定义每个分区？

实验：

我们已经测试了创建表并应用msck了以下结果：

LOCATION 's3://datasets-daily/-->msck超时；SELECT *什么都不返回

LOCATION 's3://datasets-daily/*/-->msck快速完成；SELECT *什么都不返回

在第一种情况下，查询在十小时后超时：

2017/05/22 20:57:36 UTC-5 MSCK REPAIR TABLE datasets_daily N/A FAILED 36003.56 0KB

amazon-web-services amazon-athena

2017-05-17T04:35:54.863

0 投票

1 回答

430 浏览

postgresql - 我应该使用哪些 AWS 服务来查询多个小 CSV 文件数据（经济高效的方式）

我的 Postgres DB 具有以下格式的每日增加数据（每天添加约 500 行）

每一天结束，我都可以将这些数据作为 CSV 文件写入 AWS S3 每个 CSV 文件都包含当天上述格式的数据。10May.csv、11May.csv 12May.csv 等等。

这些文件每个几乎都只有 25 KB。

我想将上述数据存储在AWS中，并允许客户端直接获取过滤后的N行

例如：客户端可以在5 月 10 日上午 11 点到5 月 11 日下午 3 点之间请求数据

基本上我需要在多个 CSV 文件上模拟这个查询：

到目前为止我发现的相关内容：

AWS Athena -> 读取 csv 并查询然后返回结果 [每次扫描 10MB 的最低费用 :(]
AWS Gateway -> AWS Lambda fn -> 从 S3 读取文件并返回结果

对于这种情况有什么更好的方法。70% 的查询需要多天的数据[读取多个 csv 文件]。

那么我应该将所有数据附加到单个文件中并使用 Athena 吗？

或者我应该得到一个带有 presto 的 EC2 吗？

或者任何其他适合这种需求的架构？

我愿意接受建议，如果需要任何其他详细信息，请告诉我？

postgresql amazon-s3 aws-lambda aws-sdk amazon-athena

2017-05-18T08:59:53.873

0 投票

1 回答

50557 浏览

amazon-web-services - AWS Athena 和 date_format

我在使用 Amazon Athena 服务格式化时间戳时遇到了一些问题。

select date_format(current_timestamp, 'y')

只返回 'y' （字符串）。

我发现在 Amazon Athena 中格式化日期的唯一方法是使用 trough ++CONCAT函数，如下所示：YEARMONTHDAY

select CONCAT(cast(year(current_timestamp) as varchar), '_', cast(day(current_timestamp) as varchar))

amazon-web-services presto amazon-athena

2017-05-19T08:21:05.147

0 投票

2 回答

4429 浏览

amazon-web-services - AWS Athena (JSON) 的 SerDe 属性列表

我正在测试 AWS 的 Athena 产品，目前运行良好。但我想知道 SerDe 属性列表。我已经搜索了很远，但找不到它。例如，我正在使用这个"ignore.malformed.json" = "true"，但我很确定还有很多其他选项可以调整查询。

例如，我找不到有关“路径”属性的作用的信息，因此拥有完整列表将是惊人的。

我查看了 Apache Hive 文档但找不到这个，在 AWS 文档/论坛上也没有。

谢谢！

amazon-web-services amazon-athena hive-serde

2017-05-22T17:18:28.053

0 投票

2 回答

6863 浏览

hive - 如何从 AWS 中的 Athena 获取结果格式 JSON？

我想从 AWS 中的 Athena 获取结果值格式 JSON。

当我从 Athena 中选择时，结果格式是这样的。

有没有办法在不将 "=" 替换为 ":" 的情况下获得 JSON 格式的结果？

列格式为

hive presto amazon-athena

2017-05-23T07:18:40.373

0 投票

1 回答

2620 浏览

amazon-web-services - 如何在 AWS 中查看 Athena 的分区列表？

我想检查 Athena 中的分区列表。

我使用了这样的查询。

但我想搜索存在的特定表。

所以我使用了如下查询，但没有返回结果。

因为 dt 也包含小时数据。

那么当我输入“2010-03-03”然后搜索“2010-03-03-01”、“2010-03-03-02”时，有什么方法可以搜索吗？

我必须像这样分开分区吗？

并且 show partitions table_name 在 Hive 中仅返回 500 行。雅典娜也一样吗？

amazon-web-services hive presto amazon-athena

2017-05-24T01:26:30.067

0 投票

2 回答

2292 浏览

hadoop - 更新分区的最佳方法是什么？

我想使用下面的代码更新分区。

（我不能使用其他选项，例如刷新语句）

但我不知道更新分区的最佳方法。

1）我每分钟运行一次该代码。

2）我使用 show 命令选择分区，然后如果分区不存在，则运行该代码。

哪个是更新分区的最佳方法（其他选项可以），所以搜索数据没有限制？

你能给我一个建议吗？

hadoop hive amazon-athena

2017-05-24T04:26:22.670

0 投票

1 回答

549 浏览

java - Datapipeline 中的 AWS Athena JDBC Jar 使用引发 Java 版本错误

我正在尝试使用 Athena JDBC 连接在 AWS 数据管道中运行 sqlactivity，但是在运行管道时出现“UnsupportedClassVersionError”错误。

我从博客中获得了一些信息（http://javarevisited.blogspot.com/2015/05/fixing-unsupported-majorminor-version.html），但我不清楚的部分是

Athena Class 有 Build-Jdk: 1.8.0_60

我的系统有Java版本：1.8.0_71

所以我不确定为什么版本不匹配。另外我的系统中只安装了 JRE，没有 JDK。我对java完全陌生，非常感谢任何帮助。

Athena JDBC 文件名：AthenaJDBC41-1.0.1.Jar

JDBC 驱动程序类：com.amazonaws.athena.jdbc.AthenaDriver

数据管道错误消息：

错误 ID：ActivityFailed：UnsupportedClassVersionError

错误消息：com/amazonaws/athena/jdbc/AthenaDriver：不支持的 major.minor 版本 52.0

java jdbc amazon-data-pipeline amazon-athena

2017-05-25T21:20:11.663

0 投票

1 回答

5932 浏览

amazon-web-services - AWS Athena 查询能否定期运行（即按计划）？

是否支持按计划运行 Athena 查询？我们希望每天查询一些数据，并转储一个汇总的 CSV 文件，但最好是自动安排。

amazon-web-services amazon-athena

2017-05-26T13:42:11.163

1 2 3 4 5 6 7 8 9 10

问题标签 [amazon-athena]

Reference