问题标签 [amazon-athena]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2551 问题

0 投票

2 回答

993 浏览

hive - Kinesis Firehose 到 s3：数据在 s3 路径中传送到错误的时间

我正在使用 Kinesis Firehose 缓冲 IoT 数据，并将其写入 s3。Firehose 以格式将缓冲区写入 s3s3://bucket.me.com/YYYY/MM/DD/HH

在 10:59a 进入的数据可能会被 Firehose 缓冲，直到 11:00a ( s3://bucket.me.com/2017/03/09/11) 才被写入。

问题是，在为 Athena 创建分区时，第 10 小时的分区不会包含第 10 小时的所有数据，因为它位于第 11 小时的路径中。

这是一个更好地说明的示例：

物联网将以下数据发送到 Firehose，Firehose 在 2a 将其写入s3://bucket.me.com/2017/03/24/02/file-0000. 文件内容如下所示：

然后我创建一个 Athena 表：

当我运行时select * from sensor_data where hour = 1，我不会返回上面的 3 条记录，因为它只会从为分区定义的 s3 路径中读取hour=1（并且 3 条记录确实在hour=2分区中）。

我该如何避免这个问题？

2017-03-24T02:37:44.620

0 投票

2 回答

9498 浏览

python - 使用 Python 和 pyathenajdbc 与 Athena 连接

我正在尝试使用 python 连接到 AWS Athena。我正在尝试使用 pyathenajdbc 来完成这项任务。我遇到的问题是获得连接。当我运行下面的代码时，我收到一条错误消息，指出它找不到 AthenaDriver。（java.lang.RuntimeException：找不到类 com.amazonaws.athena.jdbc.AthenaDriver）。我确实从 AWS 下载了这个文件，并确认它位于该目录中。

回溯（最后一次调用）：文件“/usr/lib64/python2.7/runpy.py”，第 174 行，在 _run_module_as_main“ main ”、fname、loader、pkg_name）文件“/usr/lib64/python2.7/ runpy.py”，第 72 行，在 run_globals 文件中的 _run_code 执行代码“/home/ec2-user/jason_testing/mdpbi/rsi/athena/ main .py”，第 53 行，在 rtn = main() 文件中“/home/ ec2-user/jason_testing/mdpbi/rsi/athena/ main .py”，第 39 行，在 main driver_path=athena_jdbc_driver_path 文件“/opt/mdpbi/Python_Envs/2.7.10/local/lib/python2.7/dist-packages/ pyathenajdbc/ init .py”，第 65 行，在连接 driver_path，**kwargs) 文件“/opt/mdpbi/Python_Envs/2.7.10/local/lib/python2.7/dist-packages/pyathenajdbc/connection.py”，第 68 行，在init中 jpype.JClass(ATHENA_DRIVER_CLASS_NAME) 文件“/opt/mdpbi/Python_Envs/2.7.10/lib64/python2.7/dist-packages/jpype/_jclass.py”，第 55 行，在 JClass raise _RUNTIMEEXCEPTION.PYEXC("Class %s未找到”% 名称）

python amazon-web-services amazon-athena

2017-03-24T18:07:31.820

0 投票

3 回答

3232 浏览

amazon-web-services - 将格式正确的 JSON 写入 S3 以加载到 Athena/Redshift

我有一个触发器，它为 Kinesis 上收到的每个事务执行 lambda 函数。生产者通过 PutRecordsRequest() 方法发送多个事务。Lambda函数如下；

但是，在编写事务时，在 S3 上它们不会被编写为 JSON 数组。下面是一个例子：

这种格式的数据可以直接加载到 Athena 或 Redshift，还是必须在有效的数组中？我可以在这里看到http://docs.aws.amazon.com/redshift/latest/dg/copy-usage_notes-copy-from-json.html它仍然应该能够加载到 Redshift 中。

以下是在 Athena 中创建表时使用的属性...

如何加载这些数据以便能够查询它？

amazon-web-services aws-lambda amazon-athena amazon-kinesis-firehose

2017-03-24T22:25:14.067

0 投票

1 回答

834 浏览