问题标签 [impala]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 在 hive 中转换日期格式
如何转换此日期:
采用 hive 中的“YYYY-MM-DD”格式:
我可以做explode 和concat 来匹配给定的格式,但是将Dec 转换为12 是有问题的。
hadoop - Hive/Impala 选择并平均所有行键版本
我想知道是否有一种方法可以在 HBase 中获取特定行键的先前版本,而无需编写 MapReduce 程序并对值进行平均。我很好奇这是否可以使用 Hive 或 Impala(或其他类似程序)以及您将如何做到这一点。
我的表如下所示:
我想平均所有版本的特定日期的所有值和 id 的子字符串(“411”)。
提前谢谢。
hadoop - 将数据加载到 Hive/Impala
将增量数据加载到 hive/impala 表中的最佳方法是什么?
我按照以下步骤操作,但未能成功。
- 从 MR 程序中,输出已写入 HDFS 中的临时文件夹。
- 定义了一个指向临时文件夹(MR的输出文件夹)的外部临时表
- 将临时表中的加载语句添加到我的目标表中。
- 删除临时表和 HDFS 中的临时文件夹。
当我按顺序运行 oozie 工作流程时,上述方法运行良好。当我同时调用多个作业时,它在加载数据时一直挂起。
我无法按顺序运行数据加载。任何有助于使其更有效的帮助,以便我可以运行将同时加载数据的并行作业。
sql - 在不使用 ROW_NUMBER() OVER 函数的情况下获取分区内行(排名)的序号
我需要按分区(或组)对行进行排名,即如果我的源表是:
我想获得目标表:
通常我会使用ROW_NUMBER() OVER
函数,所以在 Apache Hive 中它会是:
不幸的是,Cloudera Impala 不支持(目前)ROW_NUMBER() OVER
功能,所以我正在寻找一种解决方法。最好不要使用 UDAF,因为在政治上很难说服将其部署到服务器上。
amazon-web-services - AWS EMR Impala 守护程序问题
我刚刚创建了 EMR 集群并尝试创建我的第一个 Impala 表。收到此错误:此 Impala 守护程序尚未准备好接受用户请求。状态:等待来自 StateStore 的目录更新。请问有什么建议吗?我做了亚马逊记录的所有事情。
impala - 如何检查 Impala 表中是否存在列?
我在 Impala 中创建了一个外部表。我正在编写一个 shell 脚本来检查该表中是否存在特定列。
我们可以使用以下查询在 MySql 中执行此操作。
但是,在 Impala 中,我们如何才能做到这一点?
impala - Cloudera Impala 可以读取 Hive 中的任何表吗?
Cloudera Impala 是否能够读取任何Hive 表(即 Customer SerDer)?我在他们的官方文档中找不到任何这样的声明。
java - 使用java在impala表中插入数据
我已将mysql
表复制到hdfs
使用中,然后使用“ ”命令sqoop
创建了同名的表。impala
create external table
现在我有更多数据要使用Impala插入到impala
表中,即。请帮我在表格中插入数据。java api
ImpalaService.jar
java api
谢谢。
hadoop - 如何从 hbase 中删除重复数据
我有一个 hbase 表。
表架构:empid、empname、age
数据 1:键 - 1001 值 - 1、John、26(正确数据)
数据 2:键 - 1002 值 - 1、John、25(不正确的数据。由用户错误输入。)
只有两列具有相同的值,即empid、empname。我想获取那些除了单列值不同之外所有列具有相同值的记录。
注意:可能 3 列具有相同的值,但第四列具有不同的值。
如果你能给我 Impala Query 那就太好了。
hadoop - 如何集成 Hadoop、SOLR 和 Impala?
我正在寻找有关如何一起使用 Hadoop、SOLR 和 Impala 的示例或指导。其实我知道如何使用 Impala 和 Hadoop,但也想利用 SOLR 的强大功能使查询运行得更快。我对网络进行了相当广泛的探索,但找不到任何可以让我付诸行动的东西。