问题标签 [amazon-athena]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
6186 浏览

sql-workbench-j - Amazon Athena ALTER TABLE ADD PARTITION 查询不起作用

我正在尝试使用 SQLWorkBenchJ 将分区添加到我在 Amazon Athena 中的表中。在 Athena 查询编辑器中运行时,查询工作正常。当我使用 SQLWorkbench 运行它时它不起作用

注意:我也尝试过使用 ALTER EXTERNAL_TABLE

sqlworkbench 只返回:

执行 SQL 命令时出错:

ALTER TABLE "AwsDataCatalog".mydb.mytable ADD PARTITION (folder = '10036', full >= 'fullvalue') LOCATION 's3://my-s3-folder...
未能运行查询
1 语句失败。

在查询编辑器中运行

查询成功。

任何人都知道如何进行这项工作,以便我可以将一些添加分区查询一起批处理?

0 投票
2 回答
3790 浏览

amazon-athena - 可以为 s3 存储桶子目录创建 athena 表吗?

我们的 s3 存储桶通常有许多子目录,因此存储桶的路径类似于 s3:top-level-function-group/more-specific-folder/org-tenant-company-id/entityid/actual-数据

我们正在研究 Athena 以便能够查询 /actual-data 级别上的数据,但在 org-tenant-company-id 内,因此必须将其作为某种参数传递。

或者那个 org-tenant-company-id 会是一个分区吗?

是否可以创建一个查询此结构的 athena 表?创建表向导上的 s3 位置是什么?我用 s3:top-level-function-group/more-specific-folder/ 进行了尝试,但是当它运行时,我认为它说的是“读取 0 Kb 数据”。

0 投票
2 回答
1034 浏览

amazon-athena - 可以从 S3 存储桶子目录创建 AWS athena 分区或列吗?

我们的 s3 存储桶通常有许多子目录,因此存储桶的路径类似于 s3:functional-group/service/org-tenant-company-id/entity-id/actual-data

我们正在研究 Athena 是否能够在该 /actual-data 级别上查询数据,但在 org-tenant-company-id 内。因此,我们似乎需要一种方法来为该 org-tenant-company-id 创建列或分区。这可能吗?

我已阅读 Athena 文档中有关分区的页面。似乎我们可能必须通过 JDBC 驱动程序手动创建分区?

0 投票
2 回答
2230 浏览

hive - “WITH SERDEPROPERTIES ('paths' = 'key1, key2, key3') ”在 Hive DDL json serde 中真正做了什么?

如果有人可以提供对本条款的参考,将不胜感激。我一直在网上搜索运气不佳。

0 投票
2 回答
654 浏览

amazon-athena - Athena JDBC 输出格式

当您在 Athena 中执行查询时,结果通常以CSV格式提供。我正在寻找其他可能的输出格式,例如TSV或其他,因为我的专栏之一已经CSV有价值。

我的数据

当我给出以下查询时:

我得到了csv中的结果

我需要它是 TSV。谢谢

0 投票
2 回答
1368 浏览

scala - 使用 scala 将镶木地板数据写入 S3 上的文件

有没有一种方法可以使用 scala 在 S3 上快速稳定地写入镶木地板数据?

0 投票
1 回答
172 浏览

google-bigquery - 对 2000 亿条记录进行数据聚合和平均

记录开始于每天使用以下模式创建的 AVRO 文件。“attribute_key”和“attribute_value”记录中存储了 20 种不同的属性类型,每个测量中还包括时间戳和 device_id。

我已经能够获取每日文件并将它们加载到 bigquery 中的月份分隔表中。

我的问题有两个

我需要创建一个表,其中包含所有时间收集的所有唯一 device_id,以及每个值类型的最新属性值。

对于某些属性,还需要计算每周、每月和 90 天的平均值。(attribute_3 是采集样本的平均值)

我很好奇如何最好地接受这个,我不知道从这里去哪里。数据现在在 bigquery 中,我可以访问全套谷歌云工具......比如数据流或其他任何东西。

数据最初位于 S3 存储桶中,因此我可以使用 AWS 上的任何解决方案对其进行处理。

我只是不知道最聪明的方法是什么。

0 投票
1 回答
16082 浏览

sql - 使用 athena 创建分区时,在输入“创建外部”时没有可行的替代方案

我已经以这样的配置单元格式将分区数据存储在 s3 中。

/bucket/date=2017-02-20 /bucket/date=2017-20-25

现在我正在运行来自 Athena 的以下查询以创建分区

CREATE EXTERNAL TABLE hive3( battery double, longitude double, application string, latitude double, device_id string, trip_id string, id int, accuracy double, PARTITIONED BY (date string) ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' WITH SERDEPROPERTIES ('serialization.format' = '1') LOCATION 's3://bucket/'

抛出以下异常

no viable alternative at input 'create external' (service: amazonathena; status code: 400; error code: invalidrequestexception; request id: 6a4e0852-f8b0-11e6-b606-e52f2622374b)

任何帮助,将不胜感激。

谢谢

0 投票
1 回答
2255 浏览

sql - 使用 Amazon Athena 创建表和查询 json 数据?

我想使用 Amazon Athena 查询格式的 JSON 数据:

0 投票
0 回答
457 浏览

python-2.7 - Amazon Lambda 上的模块错误“_jpype.so 无效 ELF 标头”

我正在尝试在 Amazon Lambda 中上传 python 代码和模块,我的 python 代码访问 Amazon Athena,在那里运行查询并将结果插入 S3。当我在 Lambda 中保存并运行我的包时,我收到此错误:

“errorType”:“ImportError”,“errorMessage”:“/var/task/lib/python2.7/site-packages/_jpype.so:无效的 ELF 标头”

我正在使用 JPype1==0.6.2,Mac OS。任何关于为什么会发生这种情况或如何解决它的建议将不胜感激。