问题标签 [impala]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2273 浏览

sql - Impala 或 Hive 在其他 SQL 语法中是否有类似 IN 子句的东西?

Impala 或 Hive 是否有类似于 PL/SQLIN语句的内容?我正在寻找这样的东西:

这将返回 2013 年星期一开始的所有员工的列表。

0 投票
1 回答
1169 浏览

impala - Presto 和 Impala 之间的基本架构、SQL 合规性和数据使用场景差异是什么?

有专家能从这些角度对 Presto 和 Impala 的区别给出一些简洁的回答吗?

  1. 基础架构设计
  2. SQL 合规性
  3. 真实世界的延迟
  4. 任何 SPOF 或容错功能
  5. 结构化和非结构化数据使用场景性能
0 投票
0 回答
881 浏览

insert - 如何增加用 impala 插入的镶木地板文件大小?

Impala 语句 INSERT INTO PARTITION(...) SELECT * FROM 在每个分区中创建许多 ~350 MB parquet 文件。

“Parquet 数据文件使用 1GB 的块大小,因此在决定对数据进行分区的精细程度时,请尝试找到每个分区包含 1GB 或更多数据的粒度,而不是在多个分区中创建大量较小的文件。”

我使用 impala 版本 1.1.1。

如何增加镶木地板文件的大小?

0 投票
1 回答
1067 浏览

cloudera - 在 CDH 集群之间复制 parquet 表

我需要将镶木地板表从 CDH4.5 复制到 CDH4.3 集群,这样做:

  • 使用 distcp 复制带有数据的目录(/user/hive/warehouse/mytable)
  • 比较目录大小
  • 固定权限和所有权在两个集群(777 和 impala:hive)上看起来相同
  • 打开 impala-shell 并创建了表
  • 无效的元数据invalidate metadata
  • 刷新表refresh mytable

一切都很好,但 impala 没有看到数据。Impala 重启也无济于事。是否可以让它看到复制的数据?

0 投票
3 回答
22437 浏览

hadoop - Impala 无法访问所有配置单元表

我尝试通过 hive 查询 hbase 数据(我正在使用 cloudera)。我做了一个指向 hbase 的蜂巢外部表,但问题是 Cloudera 的 Impala 无法访问所有这些表。所有 hive 外部表都出现在 Metastore 管理器中,但是当我在 Impala 中执行简单的“显示表”时,我发现缺少 3 个表。会不会是特权问题?我在 Metastore 管理器中看到,每个人都可以读取缺少的 3 个表,所以......

0 投票
1 回答
1561 浏览

sql - 使用 Impala 查询加盐的 Hbase 行键

我想使用 Hbase 来存储网络事件,rowkey 将是事件的时间戳。这将在 Hbase 中创建热点,为避免这种情况,我将在行键中添加盐前缀。这将在所有区域中均匀分布行。到目前为止没有问题。

但我也想使用 Cloudera Impala 用 SQL 查询这些数据。是否可以将 Impala 与加盐的行键一起使用?还是我需要 * sql 查询来获得所有结果?

0 投票
1 回答
5650 浏览

cloudera - Impala 1.2.1 错误:无法打开 localhost:26000 的传输(连接()失败:连接被拒绝)

使用 impala-shell,我可以看到 hive 元存储,使用 Hive 创建的任何数据库并查询 Hive 创建的任何表。当我尝试在 impala-shell 中创建表或执行“无效元数据”时,我得到

“错误:无法打开 localhost:26000 的传输(连接()失败:连接被拒绝)”

有以下配置。这是一个多节点集群配置* 手工构建,即不使用 Cloudera Manager *

  • 中央操作系统 6
  • CDH4.5
  • 黑斑羚 1.2.1
  • Hive MySQL 元存储
  • impalad 在具有数据节点的多个节点上运行
  • statestored 和 catalogd 在不是 impalad 节点的单个节点上运行
  • 在 /etc/default/impala 我已将 IMPALA_STATE_STORE_HOST 更改为指向状态存储机器的 IP
  • 从 /var/log/impala/catalogd.INFO 中,目录服务似乎使用了 26000,因为此文件中有一行“--catalog_service_port=26000”

正如 /etc/default/impala 必须告诉 Impalad 状态存储在哪里(使用 IMPALA_STATE_STORE_HOST),我想知道对于 1.2.1(在哪里引入编目)也必须有一个用于编目位置的附加条目 - 只是一个猜测 ....

任何帮助表示赞赏。

谢谢,

0 投票
2 回答
226 浏览

hbase - Impala/hbase 与浮点数据的矛盾

我制作了一个 hive 外部表来指向一个 hbase 表(主要是用浮点数填充)。cloudera 的文档告诉“Impala 自动将 FLOAT 转换为更精确的 DOUBLE 值”。但是当我查看 Hbase(它们是行的真实值)和 Impala 时,我对所有行都有类似的东西:

行/列族的 Hbase 值:93.8447(插入的确切值)

对应的 Impala 值:93.8447036743

它看起来不像一个更精确的值。有没有办法摆脱转换?

0 投票
2 回答
2107 浏览

hadoop - 没有 CDH 的 Hadoop 2.2.0 上的 Impala?

我想用我的 Hadoop 2.2.0 发行版而不是 Cloudera 发行版来测试和配置 Impala。

我想知道是否可以在没有 CDH 的情况下使用 Impala,因为我只读到 Impala 依赖于 CDH。

我正在尝试遵循 Impala Github 中的指南 - https://github.com/cloudera/impala - 我将进行可能的更改以使其正常工作。

有人已经这样做了吗?还是真的不可能?

0 投票
1 回答
757 浏览

hadoop - Syslog 数据的 Hive 表

我正在尝试创建一个 Hive 外部表,以便将系统日志消息分为四列:时间戳、主机、程序名+pid 和消息。我想在不使用 Regex serde 的情况下执行此操作,因为我还希望 Impala 可以使用该表(不支持 Regex Serde)。

麻烦的是,如果我用四个字段定义架构并指定“\040”作为字段分隔符,我最终只会得到消息的第一个字符串。例如,此日志行:

被映射为:

“从...登录”被砍掉了。

鉴于有四列,有没有办法告诉 Hive 将其余字段放在最后一列而不是将它们排除在外?一个贪婪的选择?

谢谢