问题标签 [amazon-athena]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 如何将 Superset 与 AWS athena 连接起来?
有没有人尝试将超集连接到 AWS athena ?
我能够使用 SQLAlchemy URI 连接到 redshift:postgresql://username:password@xxxx.redshift.amazonaws.com:port/dbname
但我很难连接到 AWS athena。AWS 有 JDBC 驱动程序(http://docs.aws.amazon.com/athena/latest/ug/connect-with-jdbc.html),但我不知道如何将它与超集一起使用。有什么例子吗?
hive - 具有多个位置的 Athena 表
我的数据分布在多个目录和这些目录中的多个制表符分隔的文件中。一般结构如下所示:
其中{year}
是 4 位数的年份,{month}
是 2 位数的月份,{day}
是 2 位数的日期,{iso_2}
是 ISO2 国家代码。
如何在 Athena 中将其设置为表格?
amazon-web-services - 如何在 AWS Athena 中使用 LISTAGG?
我想使用 LISTAGG 在 Amazon Athena 中进行查询。有什么方法可以将数据聚合到列表或字符串中?
grouping_expressions 元素可以是任何函数(如 SUM、AVG、COUNT 等)
sql - AWS Athena 中的嵌套查询替代方案
我正在运行一个查询,该查询提供一组不重叠的 first_party_id - 与一个第三方关联但与另一个无关的 ID。但是,此查询不在 Athena 中运行,并给出错误:Correlated queries not yet supported.
正在查看 prestodb 文档, https ://prestodb.io/docs/current/sql/select.html(Athena 是 prestodb 的底层),以寻找嵌套查询的替代方案。给出的 with statement
例子似乎不能很好地翻译这个not in
子句。想知道嵌套查询的替代方法是什么——下面的查询。
scala - 有没有办法为scalikejdbc指定自定义连接参数?
连接到 AWS Athena 时,一个必需的参数是s3_staging_dir
指定查询的输出目录。有没有办法在scalikejdbc中指定这个参数?我试过浏览所有 scalikejdbc 的文档,但我没有发现任何此类。
雅典娜文档:http : //docs.aws.amazon.com/athena/latest/ug/connect-with-jdbc.html Scalikejdbc 文档:http ://scalikejdbc.org/documentation/configuration.html
amazon-web-services - Amazon AWS Athena S3 和 Glacier 混合存储桶
使用 S3 Glacier 的 Amazon Athena 日志分析服务
我们在 S3 中有数 PB 的数据。我们是https://www.pubnub.com/,我们将使用数据存储在我们网络的 S3 中以用于计费目的。我们将制表符分隔的日志文件存储在 S3 存储桶中。雅典娜让我们HIVE_CURSOR_ERROR
失败了。
我们的 S3 存储桶设置为在 6 个月后自动推送到 AWS Glacier。除了 Glacier 备份文件之外,我们的存储桶还有热的 S3 文件并且可以读取。因此,我们从 Athena 收到访问错误。错误中引用的文件是 Glacier 备份。
我的猜测是答案将是:不要将冰川备份保存在同一个存储桶中。由于我们的数据量大小,我们无法轻松使用此选项。我相信 Athena 在此设置中不起作用,我们将无法使用 Athena 进行日志分析。
但是,如果有一种方法可以让我们使用 Athena,我们会非常激动。是否有HIVE_CURSOR_ERROR
跳过 Glacier 文件的解决方案和方法?我们的 s3 存储桶是没有文件夹的扁平存储桶。
屏幕截图中省略了上面和下面屏幕截图中显示的 S3 文件对象名称。中的文件引用HIVE_CURSOR_ERROR
实际上是 Glacier 对象。您可以在我们的 S3 存储桶的屏幕截图中看到它。
请注意,我尝试在https://forums.aws.amazon.com/上发帖,但那不是 bueno。
amazon-kinesis - 我可以使用 Amazon Kinesis Analytics 反转地理编码数据吗?
当使用 Amazon Kinesis 处理大量传入的纬度/经度数据点时,大规模反向地理编码的最佳方法是什么?
使用 Kinesis Analytics,我可以使用存储在 S3 中的参考数据,如下所述:http: //docs.aws.amazon.com/kinesisanalytics/latest/dev/app-add-reference-data.html
这可能包含国家和城市纬度/经度数据,例如来自 Geonames。
那么是否可以使用半正弦公式运行 Analytics 查询,以计算我的参考表中与我的 lat/lng 坐标数据最近的城市?然后,我可以使用丰富的反向地理编码数据创建输出流。
然而,看起来 SQL 引擎缺少 COS/RADIANS 函数。
任何帮助将不胜感激。
hive - AWS Athena (Presto) DISTINCT SQL 查询中的重复结果?
我在 S3 上有一堆文件,其中仅包含 MD5,每行一个。我创建了一个 AWS Athena 表来对 MD5 运行重复数据删除查询。这些文件和表格中总共有数亿个 MD5。
Athena 表创建查询:
这是我尝试过的所有“重复数据删除”查询(这些都应该是相同的):
从 Athena 输出的所有结果 .csvs 仍然具有重复的 MD5。是什么赋予了?
Athena 是否在执行部分重复数据删除?- 更奇怪的是,如果我COUNT(DISTINCT md5)
在 Athena 中执行 a,我得到的计数与导出时返回的行数不同。
COUNT(DISTINCT md5)
在雅典娜:97,533,226- 不同MD5的出口记录:97,581,616
- 结果导出中有 14,790 个重复项,因此COUNT(DISTINCT) 计数都不好,结果导出也不好。
Athena 是否在导出时创建重复项?- 情节变厚了。如果我在 Athena 表中查询在 Athena 结果导出中重复的 MD5 之一,我只能从表中获得一个结果/行。我通过LIKE
查询对此进行了测试,以确保空格不会导致问题。这意味着 Athena 正在向导出添加重复项。结果中永远不会有超过两个相同的 MD5。
Athena 的计数和结果文件都错误吗?- 我使用 MySQL 对这些相同的记录进行了重复数据删除,最终得到了 97,531,010 个唯一的 MD5。Athenas 计数和结果详情如下。
COUNT(DISTINCT md5)
在雅典娜:97,533,226- 不同MD5的出口记录:97,581,616
- 结果导出中有 14,790 个重复项,因此COUNT(DISTINCT) 计数似乎都不好,结果导出也不好。
我认为这是一个 Athena 错误- 我已向 AWS 的开发团队提交了一张票以修复此问题,并会在更新后更新此帖子。
这是相关的 AWS 论坛帖子,其他用户也看到了同样的问题。 https://forums.aws.amazon.com/thread.jspa?messageID=764702
sql - 在 AWS Athena 的 json 文件中存储多个元素
我有一些 json 文件存储在 S3 存储桶中,其中每个文件都有多个相同结构的元素。例如,
我想在 Athena 中创建一个对应于上述数据的表。
我为创建表而编写的查询:
但是,如果我按如下方式执行 SELECT 查询,
我得到以下结果:
json 文件的全部内容在这里被选为一个条目。
如何将 json 文件的每个元素作为一个条目读取?
编辑:如何读取图像的每个子列,即地图的每个元素?
谢谢。