0 投票

6 回答

7408 浏览

amazon-web-services - 如何将 Superset 与 AWS athena 连接起来？

有没有人尝试将超集连接到 AWS athena ？

我能够使用 SQLAlchemy URI 连接到 redshift：postgresql://username:password@xxxx.redshift.amazonaws.com:port/dbname

但我很难连接到 AWS athena。AWS 有 JDBC 驱动程序（http://docs.aws.amazon.com/athena/latest/ug/connect-with-jdbc.html），但我不知道如何将它与超集一起使用。有什么例子吗？

2017-01-13T10:36:23.273

0 投票

2 回答

163 浏览

join - 在 hql 中连接表时使用 AND & OR

我正在尝试在 athena 中加入两个表，从 table1 中选择在 table2 中具有起始坐标或结束坐标的行。我似乎无法让我的代码工作。我想要的只是条目数。第一个表中的坐标存储为字符串，因此我将它们转换为真实的。我得到的错误是查询超时。

这是表中相关列的快照。

dotnov2016：

这是 uniquetripcoords：

join hql amazon-athena

2017-01-17T12:26:55.200

0 投票

1 回答

2405 浏览

hive - 具有多个位置的 Athena 表

我的数据分布在多个目录和这些目录中的多个制表符分隔的文件中。一般结构如下所示：

其中{year}是 4 位数的年份，{month}是 2 位数的月份，{day}是 2 位数的日期，{iso_2}是 ISO2 国家代码。

如何在 Athena 中将其设置为表格？

hive amazon-athena

2017-01-23T18:10:24.850

0 投票

1 回答

7834 浏览

amazon-web-services - 如何在 AWS Athena 中使用 LISTAGG？

我想使用 LISTAGG 在 Amazon Athena 中进行查询。有什么方法可以将数据聚合到列表或字符串中？

作为Amazon Athena 用户指南，

grouping_expressions 元素可以是任何函数（如 SUM、AVG、COUNT 等）

amazon-web-services amazon-athena

2017-01-24T06:31:43.070

0 投票

2 回答

20117 浏览

sql - AWS Athena 中的嵌套查询替代方案

我正在运行一个查询，该查询提供一组不重叠的 first_party_id - 与一个第三方关联但与另一个无关的 ID。但是，此查询不在 Athena 中运行，并给出错误：Correlated queries not yet supported.

正在查看 prestodb 文档， https ://prestodb.io/docs/current/sql/select.html（Athena 是 prestodb 的底层），以寻找嵌套查询的替代方案。给出的 with statement例子似乎不能很好地翻译这个not in子句。想知道嵌套查询的替代方法是什么——下面的查询。

sql amazon-web-services presto amazon-athena

2017-01-24T15:33:51.743

0 投票

1 回答

294 浏览

scala - 有没有办法为scalikejdbc指定自定义连接参数？

连接到 AWS Athena 时，一个必需的参数是s3_staging_dir指定查询的输出目录。有没有办法在scalikejdbc中指定这个参数？我试过浏览所有 scalikejdbc 的文档，但我没有发现任何此类。

雅典娜文档：http : //docs.aws.amazon.com/athena/latest/ug/connect-with-jdbc.html Scalikejdbc 文档：http ://scalikejdbc.org/documentation/configuration.html

scala amazon-web-services database-connection amazon-athena scalikejdbc

2017-01-25T20:04:03.247

0 投票

3 回答

5197 浏览

amazon-web-services - Amazon AWS Athena S3 和 Glacier 混合存储桶

使用 S3 Glacier 的 Amazon Athena 日志分析服务

我们在 S3 中有数 PB 的数据。我们是https://www.pubnub.com/，我们将使用数据存储在我们网络的 S3 中以用于计费目的。我们将制表符分隔的日志文件存储在 S3 存储桶中。雅典娜让我们HIVE_CURSOR_ERROR失败了。

我们的 S3 存储桶设置为在 6 个月后自动推送到 AWS Glacier。除了 Glacier 备份文件之外，我们的存储桶还有热的 S3 文件并且可以读取。因此，我们从 Athena 收到访问错误。错误中引用的文件是 Glacier 备份。

我的猜测是答案将是：不要将冰川备份保存在同一个存储桶中。由于我们的数据量大小，我们无法轻松使用此选项。我相信 Athena 在此设置中不起作用，我们将无法使用 Athena 进行日志分析。

但是，如果有一种方法可以让我们使用 Athena，我们会非常激动。是否有HIVE_CURSOR_ERROR跳过 Glacier 文件的解决方案和方法？我们的 s3 存储桶是没有文件夹的扁平存储桶。

屏幕截图中省略了上面和下面屏幕截图中显示的 S3 文件对象名称。中的文件引用HIVE_CURSOR_ERROR实际上是 Glacier 对象。您可以在我们的 S3 存储桶的屏幕截图中看到它。

请注意，我尝试在https://forums.aws.amazon.com/上发帖，但那不是 bueno。

amazon-web-services amazon-s3 amazon-glacier amazon-athena

2017-01-25T22:33:50.583

0 投票

1 回答

183 浏览

amazon-kinesis - 我可以使用 Amazon Kinesis Analytics 反转地理编码数据吗？

当使用 Amazon Kinesis 处理大量传入的纬度/经度数据点时，大规模反向地理编码的最佳方法是什么？

使用 Kinesis Analytics，我可以使用存储在 S3 中的参考数据，如下所述：http: //docs.aws.amazon.com/kinesisanalytics/latest/dev/app-add-reference-data.html

这可能包含国家和城市纬度/经度数据，例如来自 Geonames。

那么是否可以使用半正弦公式运行 Analytics 查询，以计算我的参考表中与我的 lat/lng 坐标数据最近的城市？然后，我可以使用丰富的反向地理编码数据创建输出流。

然而，看起来 SQL 引擎缺少 COS/RADIANS 函数。

任何帮助将不胜感激。

amazon-kinesis amazon-athena amazon-kinesis-firehose

2017-01-26T21:46:32.033

0 投票

2 回答

10412 浏览

hive - AWS Athena (Presto) DISTINCT SQL 查询中的重复结果？

我在 S3 上有一堆文件，其中仅包含 MD5，每行一个。我创建了一个 AWS Athena 表来对 MD5 运行重复数据删除查询。这些文件和表格中总共有数亿个 MD5。

Athena 表创建查询：

这是我尝试过的所有“重复数据删除”查询（这些都应该是相同的）：

从 Athena 输出的所有结果 .csvs 仍然具有重复的 MD5。是什么赋予了？

Athena 是否在执行部分重复数据删除？- 更奇怪的是，如果我COUNT(DISTINCT md5)在 Athena 中执行 a，我得到的计数与导出时返回的行数不同。

COUNT(DISTINCT md5)在雅典娜：97,533,226
不同MD5的出口记录：97,581,616
结果导出中有 14,790 个重复项，因此COUNT(DISTINCT) 计数都不好，结果导出也不好。

Athena 是否在导出时创建重复项？- 情节变厚了。如果我在 Athena 表中查询在 Athena 结果导出中重复的 MD5 之一，我只能从表中获得一个结果/行。我通过LIKE查询对此进行了测试，以确保空格不会导致问题。这意味着 Athena 正在向导出添加重复项。结果中永远不会有超过两个相同的 MD5。

Athena 的计数和结果文件都错误吗？- 我使用 MySQL 对这些相同的记录进行了重复数据删除，最终得到了 97,531,010 个唯一的 MD5。Athenas 计数和结果详情如下。

COUNT(DISTINCT md5)在雅典娜：97,533,226
不同MD5的出口记录：97,581,616
结果导出中有 14,790 个重复项，因此COUNT(DISTINCT) 计数似乎都不好，结果导出也不好。

我认为这是一个 Athena 错误- 我已向 AWS 的开发团队提交了一张票以修复此问题，并会在更新后更新此帖子。

这是相关的 AWS 论坛帖子，其他用户也看到了同样的问题。 https://forums.aws.amazon.com/thread.jspa?messageID=764702

hive duplicates presto amazon-athena

2017-02-01T01:32:06.840

0 投票

1 回答

6276 浏览

sql - 在 AWS Athena 的 json 文件中存储多个元素

我有一些 json 文件存储在 S3 存储桶中，其中每个文件都有多个相同结构的元素。例如，

我想在 Athena 中创建一个对应于上述数据的表。

我为创建表而编写的查询：

但是，如果我按如下方式执行 SELECT 查询，

我得到以下结果：

json 文件的全部内容在这里被选为一个条目。

如何将 json 文件的每个元素作为一个条目读取？

编辑：如何读取图像的每个子列，即地图的每个元素？

谢谢。

sql json amazon-web-services amazon-athena

2017-02-03T22:35:42.140

问题标签 [amazon-athena]

使用 S3 Glacier 的 Amazon Athena 日志分析服务

Reference