问题标签 [amazon-athena]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 如何获取输入文件名作为 AWS Athena 外部表中的列
我在 AWS Athena 中创建了外部表来查询 S3 数据,但是,位置路径有 1000 多个文件。所以我需要将记录的相应文件名显示为表格中的一列。
简而言之,我需要知道 AWS Athena Presto 中的 INPUT__FILE__NAME(hive) 等效项或任何其他实现相同目的的方法。
amazon-web-services - 对象具有随机前缀时的 Athena 分区
语境:
我们想使用 Athena 来查询 S3 存储桶,该存储桶遵循 AWS 建议的最佳实践,即使用均匀分布的值作为对象名称的前缀:
该数据集为 40TB,包含 850k 个文件和 140k 个分区。我们的分区限制已增加到 250k。
问题:
可以msck repair table_name
在这种结构中自动分区数据,还是因为我们使用前缀,所以我们是否应该为每个键手动定义每个分区?
实验:
我们已经测试了创建表并应用msck
了以下结果:
LOCATION 's3://datasets-daily/
-->msck
超时;SELECT *
什么都不返回
LOCATION 's3://datasets-daily/*/
-->msck
快速完成;SELECT *
什么都不返回
在第一种情况下,查询在十小时后超时:
2017/05/22 20:57:36 UTC-5 MSCK REPAIR TABLE datasets_daily N/A FAILED 36003.56 0KB
postgresql - 我应该使用哪些 AWS 服务来查询多个小 CSV 文件数据(经济高效的方式)
我的 Postgres DB 具有以下格式的每日增加数据(每天添加约 500 行)
每一天结束,我都可以将这些数据作为 CSV 文件写入 AWS S3 每个 CSV 文件都包含当天上述格式的数据。10May.csv、11May.csv 12May.csv 等等。
这些文件每个几乎都只有 25 KB。
我想将上述数据存储在AWS中,并允许客户端直接获取过滤后的N行
例如:客户端可以在5 月 10 日上午 11 点到5 月 11 日下午 3 点之间请求数据
基本上我需要在多个 CSV 文件上模拟这个查询:
到目前为止我发现的相关内容:
- AWS Athena -> 读取 csv 并查询然后返回结果 [每次扫描 10MB 的最低费用 :(]
- AWS Gateway -> AWS Lambda fn -> 从 S3 读取文件并返回结果
对于这种情况有什么更好的方法。70% 的查询需要多天的数据[读取多个 csv 文件]。
那么我应该将所有数据附加到单个文件中并使用 Athena 吗?
或者我应该得到一个带有 presto 的 EC2 吗?
或者任何其他适合这种需求的架构?
我愿意接受建议,如果需要任何其他详细信息,请告诉我?
amazon-web-services - AWS Athena 和 date_format
我在使用 Amazon Athena 服务格式化时间戳时遇到了一些问题。
select date_format(current_timestamp, 'y')
只返回 'y' (字符串)。
我发现在 Amazon Athena 中格式化日期的唯一方法是使用 trough ++CONCAT
函数,如下所示:YEAR
MONTH
DAY
select CONCAT(cast(year(current_timestamp) as varchar), '_', cast(day(current_timestamp) as varchar))
amazon-web-services - AWS Athena (JSON) 的 SerDe 属性列表
我正在测试 AWS 的 Athena 产品,目前运行良好。但我想知道 SerDe 属性列表。我已经搜索了很远,但找不到它。例如,我正在使用这个"ignore.malformed.json" = "true"
,但我很确定还有很多其他选项可以调整查询。
例如,我找不到有关“路径”属性的作用的信息,因此拥有完整列表将是惊人的。
我查看了 Apache Hive 文档但找不到这个,在 AWS 文档/论坛上也没有。
谢谢!
hive - 如何从 AWS 中的 Athena 获取结果格式 JSON?
我想从 AWS 中的 Athena 获取结果值格式 JSON。
当我从 Athena 中选择时,结果格式是这样的。
有没有办法在不将 "=" 替换为 ":" 的情况下获得 JSON 格式的结果?
列格式为
amazon-web-services - 如何在 AWS 中查看 Athena 的分区列表?
我想检查 Athena 中的分区列表。
我使用了这样的查询。
但我想搜索存在的特定表。
所以我使用了如下查询,但没有返回结果。
因为 dt 也包含小时数据。
那么当我输入“2010-03-03”然后搜索“2010-03-03-01”、“2010-03-03-02”时,有什么方法可以搜索吗?
我必须像这样分开分区吗?
并且 show partitions table_name 在 Hive 中仅返回 500 行。雅典娜也一样吗?
hadoop - 更新分区的最佳方法是什么?
我想使用下面的代码更新分区。
(我不能使用其他选项,例如刷新语句)
但我不知道更新分区的最佳方法。
1)我每分钟运行一次该代码。
2)我使用 show 命令选择分区,然后如果分区不存在,则运行该代码。
哪个是更新分区的最佳方法(其他选项可以),所以搜索数据没有限制?
你能给我一个建议吗?
java - Datapipeline 中的 AWS Athena JDBC Jar 使用引发 Java 版本错误
我正在尝试使用 Athena JDBC 连接在 AWS 数据管道中运行 sqlactivity,但是在运行管道时出现“UnsupportedClassVersionError”错误。
我从博客中获得了一些信息(http://javarevisited.blogspot.com/2015/05/fixing-unsupported-majorminor-version.html),但我不清楚的部分是
Athena Class 有 Build-Jdk: 1.8.0_60
我的系统有Java版本:1.8.0_71
所以我不确定为什么版本不匹配。另外我的系统中只安装了 JRE,没有 JDK。我对java完全陌生,非常感谢任何帮助。
Athena JDBC 文件名:AthenaJDBC41-1.0.1.Jar
JDBC 驱动程序类:com.amazonaws.athena.jdbc.AthenaDriver
数据管道错误消息:
错误 ID:ActivityFailed:UnsupportedClassVersionError
错误消息:com/amazonaws/athena/jdbc/AthenaDriver:不支持的 major.minor 版本 52.0
amazon-web-services - AWS Athena 查询能否定期运行(即按计划)?
是否支持按计划运行 Athena 查询?我们希望每天查询一些数据,并转储一个汇总的 CSV 文件,但最好是自动安排。