问题标签 [impala]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - Impala 或 Hive 在其他 SQL 语法中是否有类似 IN 子句的东西?
Impala 或 Hive 是否有类似于 PL/SQLIN
语句的内容?我正在寻找这样的东西:
这将返回 2013 年星期一开始的所有员工的列表。
impala - Presto 和 Impala 之间的基本架构、SQL 合规性和数据使用场景差异是什么?
有专家能从这些角度对 Presto 和 Impala 的区别给出一些简洁的回答吗?
- 基础架构设计
- SQL 合规性
- 真实世界的延迟
- 任何 SPOF 或容错功能
- 结构化和非结构化数据使用场景性能
insert - 如何增加用 impala 插入的镶木地板文件大小?
Impala 语句 INSERT INTO PARTITION(...) SELECT * FROM 在每个分区中创建许多 ~350 MB parquet 文件。
“Parquet 数据文件使用 1GB 的块大小,因此在决定对数据进行分区的精细程度时,请尝试找到每个分区包含 1GB 或更多数据的粒度,而不是在多个分区中创建大量较小的文件。”
我使用 impala 版本 1.1.1。
如何增加镶木地板文件的大小?
cloudera - 在 CDH 集群之间复制 parquet 表
我需要将镶木地板表从 CDH4.5 复制到 CDH4.3 集群,这样做:
- 使用 distcp 复制带有数据的目录(/user/hive/warehouse/mytable)
- 比较目录大小
- 固定权限和所有权在两个集群(777 和 impala:hive)上看起来相同
- 打开 impala-shell 并创建了表
- 无效的元数据
invalidate metadata
- 刷新表
refresh mytable
一切都很好,但 impala 没有看到数据。Impala 重启也无济于事。是否可以让它看到复制的数据?
hadoop - Impala 无法访问所有配置单元表
我尝试通过 hive 查询 hbase 数据(我正在使用 cloudera)。我做了一个指向 hbase 的蜂巢外部表,但问题是 Cloudera 的 Impala 无法访问所有这些表。所有 hive 外部表都出现在 Metastore 管理器中,但是当我在 Impala 中执行简单的“显示表”时,我发现缺少 3 个表。会不会是特权问题?我在 Metastore 管理器中看到,每个人都可以读取缺少的 3 个表,所以......
sql - 使用 Impala 查询加盐的 Hbase 行键
我想使用 Hbase 来存储网络事件,rowkey 将是事件的时间戳。这将在 Hbase 中创建热点,为避免这种情况,我将在行键中添加盐前缀。这将在所有区域中均匀分布行。到目前为止没有问题。
但我也想使用 Cloudera Impala 用 SQL 查询这些数据。是否可以将 Impala 与加盐的行键一起使用?还是我需要 * sql 查询来获得所有结果?
cloudera - Impala 1.2.1 错误:无法打开 localhost:26000 的传输(连接()失败:连接被拒绝)
使用 impala-shell,我可以看到 hive 元存储,使用 Hive 创建的任何数据库并查询 Hive 创建的任何表。当我尝试在 impala-shell 中创建表或执行“无效元数据”时,我得到
“错误:无法打开 localhost:26000 的传输(连接()失败:连接被拒绝)”
有以下配置。这是一个多节点集群配置* 手工构建,即不使用 Cloudera Manager *
- 中央操作系统 6
- CDH4.5
- 黑斑羚 1.2.1
- Hive MySQL 元存储
- impalad 在具有数据节点的多个节点上运行
- statestored 和 catalogd 在不是 impalad 节点的单个节点上运行
- 在 /etc/default/impala 我已将 IMPALA_STATE_STORE_HOST 更改为指向状态存储机器的 IP
- 从 /var/log/impala/catalogd.INFO 中,目录服务似乎使用了 26000,因为此文件中有一行“--catalog_service_port=26000”
正如 /etc/default/impala 必须告诉 Impalad 状态存储在哪里(使用 IMPALA_STATE_STORE_HOST),我想知道对于 1.2.1(在哪里引入编目)也必须有一个用于编目位置的附加条目 - 只是一个猜测 ....
任何帮助表示赞赏。
谢谢,
hbase - Impala/hbase 与浮点数据的矛盾
我制作了一个 hive 外部表来指向一个 hbase 表(主要是用浮点数填充)。cloudera 的文档告诉“Impala 自动将 FLOAT 转换为更精确的 DOUBLE 值”。但是当我查看 Hbase(它们是行的真实值)和 Impala 时,我对所有行都有类似的东西:
行/列族的 Hbase 值:93.8447(插入的确切值)
对应的 Impala 值:93.8447036743
它看起来不像一个更精确的值。有没有办法摆脱转换?
hadoop - 没有 CDH 的 Hadoop 2.2.0 上的 Impala?
我想用我的 Hadoop 2.2.0 发行版而不是 Cloudera 发行版来测试和配置 Impala。
我想知道是否可以在没有 CDH 的情况下使用 Impala,因为我只读到 Impala 依赖于 CDH。
我正在尝试遵循 Impala Github 中的指南 - https://github.com/cloudera/impala - 我将进行可能的更改以使其正常工作。
有人已经这样做了吗?还是真的不可能?
hadoop - Syslog 数据的 Hive 表
我正在尝试创建一个 Hive 外部表,以便将系统日志消息分为四列:时间戳、主机、程序名+pid 和消息。我想在不使用 Regex serde 的情况下执行此操作,因为我还希望 Impala 可以使用该表(不支持 Regex Serde)。
麻烦的是,如果我用四个字段定义架构并指定“\040”作为字段分隔符,我最终只会得到消息的第一个字符串。例如,此日志行:
被映射为:
“从...登录”被砍掉了。
鉴于有四列,有没有办法告诉 Hive 将其余字段放在最后一列而不是将它们排除在外?一个贪婪的选择?
谢谢