问题标签 [impala]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1876 问题

0 投票

3 回答

2273 浏览

sql - Impala 或 Hive 在其他 SQL 语法中是否有类似 IN 子句的东西？

Impala 或 Hive 是否有类似于 PL/SQLIN语句的内容？我正在寻找这样的东西：

这将返回 2013 年星期一开始的所有员工的列表。

2013-11-01T13:18:49.250

0 投票

1 回答

1169 浏览

impala - Presto 和 Impala 之间的基本架构、SQL 合规性和数据使用场景差异是什么？

有专家能从这些角度对 Presto 和 Impala 的区别给出一些简洁的回答吗？

基础架构设计
SQL 合规性
真实世界的延迟
任何 SPOF 或容错功能
结构化和非结构化数据使用场景性能

impala presto

2013-11-07T16:16:57.353

0 投票

0 回答

881 浏览

insert - 如何增加用 impala 插入的镶木地板文件大小？

Impala 语句 INSERT INTO PARTITION(...) SELECT * FROM 在每个分区中创建许多 ~350 MB parquet 文件。

“Parquet 数据文件使用 1GB 的块大小，因此在决定对数据进行分区的精细程度时，请尝试找到每个分区包含 1GB 或更多数据的粒度，而不是在多个分区中创建大量较小的文件。”

我使用 impala 版本 1.1.1。

如何增加镶木地板文件的大小？

insert avro impala

2013-11-18T19:54:54.260

0 投票

1 回答

1067 浏览

cloudera - 在 CDH 集群之间复制 parquet 表

我需要将镶木地板表从 CDH4.5 复制到 CDH4.3 集群，这样做：

使用 distcp 复制带有数据的目录（/user/hive/warehouse/mytable）
比较目录大小
固定权限和所有权在两个集群（777 和 impala:hive）上看起来相同
打开 impala-shell 并创建了表
无效的元数据invalidate metadata
刷新表refresh mytable

一切都很好，但 impala 没有看到数据。Impala 重启也无济于事。是否可以让它看到复制的数据？

cloudera impala

2013-12-06T19:19:03.653

0 投票

3 回答

22437 浏览

hadoop - Impala 无法访问所有配置单元表

我尝试通过 hive 查询 hbase 数据（我正在使用 cloudera）。我做了一个指向 hbase 的蜂巢外部表，但问题是 Cloudera 的 Impala 无法访问所有这些表。所有 hive 外部表都出现在 Metastore 管理器中，但是当我在 Impala 中执行简单的“显示表”时，我发现缺少 3 个表。会不会是特权问题？我在 Metastore 管理器中看到，每个人都可以读取缺少的 3 个表，所以......

hadoop hive cloudera hue impala

2013-12-10T16:44:49.540

0 投票

1 回答

1561 浏览

sql - 使用 Impala 查询加盐的 Hbase 行键

我想使用 Hbase 来存储网络事件，rowkey 将是事件的时间戳。这将在 Hbase 中创建热点，为避免这种情况，我将在行键中添加盐前缀。这将在所有区域中均匀分布行。到目前为止没有问题。

但我也想使用 Cloudera Impala 用 SQL 查询这些数据。是否可以将 Impala 与加盐的行键一起使用？还是我需要 * sql 查询来获得所有结果？

sql hadoop hbase cloudera impala

2013-12-11T15:21:57.160

0 投票

1 回答

5650 浏览

cloudera - Impala 1.2.1 错误：无法打开 localhost:26000 的传输（连接（）失败：连接被拒绝）

使用 impala-shell，我可以看到 hive 元存储，使用 Hive 创建的任何数据库并查询 Hive 创建的任何表。当我尝试在 impala-shell 中创建表或执行“无效元数据”时，我得到

“错误：无法打开 localhost:26000 的传输（连接（）失败：连接被拒绝）”

有以下配置。这是一个多节点集群配置* 手工构建，即不使用 Cloudera Manager *

中央操作系统 6
CDH4.5
黑斑羚 1.2.1
Hive MySQL 元存储
impalad 在具有数据节点的多个节点上运行
statestored 和 catalogd 在不是 impalad 节点的单个节点上运行
在 /etc/default/impala 我已将 IMPALA_STATE_STORE_HOST 更改为指向状态存储机器的 IP
从 /var/log/impala/catalogd.INFO 中，目录服务似乎使用了 26000，因为此文件中有一行“--catalog_service_port=26000”

正如 /etc/default/impala 必须告诉 Impalad 状态存储在哪里（使用 IMPALA_STATE_STORE_HOST），我想知道对于 1.2.1（在哪里引入编目）也必须有一个用于编目位置的附加条目 - 只是一个猜测 ....

任何帮助表示赞赏。

谢谢，

cloudera impala

2013-12-12T01:27:52.390

0 投票

2 回答

226 浏览

hbase - Impala/hbase 与浮点数据的矛盾

我制作了一个 hive 外部表来指向一个 hbase 表（主要是用浮点数填充）。cloudera 的文档告诉“Impala 自动将 FLOAT 转换为更精确的 DOUBLE 值”。但是当我查看 Hbase（它们是行的真实值）和 Impala 时，我对所有行都有类似的东西：

行/列族的 Hbase 值：93.8447（插入的确切值）

对应的 Impala 值：93.8447036743

它看起来不像一个更精确的值。有没有办法摆脱转换？

hbase cloudera impala

2013-12-12T15:44:50.043

0 投票

2 回答

2107 浏览

hadoop - 没有 CDH 的 Hadoop 2.2.0 上的 Impala？

我想用我的 Hadoop 2.2.0 发行版而不是 Cloudera 发行版来测试和配置 Impala。

我想知道是否可以在没有 CDH 的情况下使用 Impala，因为我只读到 Impala 依赖于 CDH。

我正在尝试遵循 Impala Github 中的指南 - https://github.com/cloudera/impala - 我将进行可能的更改以使其正常工作。

有人已经这样做了吗？还是真的不可能？

hadoop cloudera impala

2013-12-24T12:00:51.407

0 投票

1 回答

757 浏览

hadoop - Syslog 数据的 Hive 表

我正在尝试创建一个 Hive 外部表，以便将系统日志消息分为四列：时间戳、主机、程序名+pid 和消息。我想在不使用 Regex serde 的情况下执行此操作，因为我还希望 Impala 可以使用该表（不支持 Regex Serde）。

麻烦的是，如果我用四个字段定义架构并指定“\040”作为字段分隔符，我最终只会得到消息的第一个字符串。例如，此日志行：

被映射为：

“从...登录”被砍掉了。

鉴于有四列，有没有办法告诉 Hive 将其余字段放在最后一列而不是将它们排除在外？一个贪婪的选择？

谢谢

hadoop schema hive syslog impala

2014-01-11T08:27:06.023

1 2 3 4 5 6 7 8 9 10

问题标签 [impala]

Reference