问题标签 [impala]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1802 浏览

database - 将数据加载到 impala 分区表中

我在 HDFS 中有以下目录结构中的数据:

每个子目录中有多个零件文件。

我想将此数据集加载到 impala 表中,因此使用以下查询创建表:

CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP, ..... url STRING,domain STRING) PARTITIONED BY (year INT, month INT, day INT.hour INT) 行格式分隔字段以 '\t' 结尾;

然后

但它无法加载并出现以下错误:

不确定执行此操作的正确方法是什么。

任何人都可以在这方面提供帮助吗?

谢谢

0 投票
1 回答
3204 浏览

database - 如何修复“错误转换列:0 TO TIMESTAMP”?

我有存储在 HDFS 上的文本文件中的数据,具有以下目录结构:

因此,我使用以下查询在 impala 中创建了一个外部表:

并将数据加载到其中:

适用于所有可用的日期和时间。它已成功加载,我通过计算行数来验证这一点。

但是当我尝试select * from search limit 10;它时给出错误“错误转换列:0 TO TIMESTAMP(数据为:1406965816)”

time_stamp 的原始值为 Unix 时间戳格式。如何将它从 unix 时间戳转换为 Impala TIMESTAMP 数据类型?

0 投票
2 回答
4343 浏览

hive - Pentaho 中的 Hive 数据集成错误

我正在使用 Bigdata Lite3.0、Pentaho 5.1、CDH5.0。我想使用 Pentaho 连接 Hive 表。

在尝试连接时,我遇到了以下错误。

主机名:本地主机端口:8888 数据库名称:默认

等待你的回复

问候, 吉腾

0 投票
2 回答
6923 浏览

cloudera - 如何按周分组 Cloudera impala

如何按周对 Impala 查询结果进行分组?数据如下:

预期结果是:

谢谢你。

0 投票
3 回答
7226 浏览

csv - Impala 不支持自定义 SerDe,查询带双引号的 CSV 文件的最佳方法是什么?

我有一个 CSV 数据,每个字段都用双引号括起来。当我创建 Hive 表使用 serde 'com.bizo.hive.serde.csv.CSVSerde' 在 Impala 中查询上表时,我收到错误 SerDe not found。

我在 /usr/lib/impala/lib 文件夹中添加了 CSV Serde JAR 文件。

后来在 Impala 文档中研究了 Impala 不支持自定义 SERDE。在这种情况下,我该如何克服这个问题,以便我的带引号的 CSV 数据得到处理。我想使用 CSV Serde,因为它在值中使用逗号,这是一个合法的字段值。

非常感谢

0 投票
1 回答
1528 浏览

hadoop - 启动 Impala 的问题

我一直在尝试在本地 Hadoop 安装上安装和启动 Impala。下面是使用的错误日志impalad。Impala 服务器位于辅助名称节点 (nn02.tcs.com)

我可以通过以下方式访问相同的 HDFS:

我可以通过名称节点中的浏览器访问名称节点 (nn01.tcs.com) 中的站点:

http://nn01.tcs.com:8020 - 我收到以下消息

看起来您正在向 Hadoop IPC 端口发出 HTTP 请求。这不是此守护程序上 Web 界面的正确端口。

请帮助解决此错误

0 投票
0 回答
358 浏览

database - Tableau中时间戳的数据类型可以快速读取吗?

我们想从后端数据存储(示例 Vertica)将大数据集查询到 Tableau。时间戳在 TIMESTAMP 中。因为我们要在 Tableau 仪表板中的时间戳字段上创建过滤器,这将限制查询运行时间。

现在时间戳字段的数据类型是 TIMESTAMP,当 Tableau 查询该时间时,它使用 CAST 使查询运行缓慢。

所以有人知道解决这个问题的最佳方法吗?

谢谢

0 投票
1 回答
240 浏览

sql - “order by”的 Hive、Impala、HBASE 和 SQL 比较

我对 hive、impala、HBASE 完全陌生。我正在做一些全文搜索应用程序。我在 oracle 平台上的 SQL 中使用 order by 对相关性进行排序是一个痛苦的步骤。想知道我在 hadoop 生态系统中更改它是否会有所帮助。希望有人可以帮助解决这个问题。提前致谢。

0 投票
1 回答
784 浏览

java - 在 impala 1.2.4 中实现 rank 函数(rank over partition by)?

到目前为止,我无法在 impala(版本 1.2.4)中找到分区和排名功能。有没有办法实现它?

我也无法更新 impala 版本,因为我正在使用亚马逊网络服务。

0 投票
1 回答
967 浏览

hadoop - 插入 Parquet 文件会生成 512 MB 文件。如何生成 1 GB 的文件?

我正在测试 Parquet 文件格式并使用 Impala 外部表将数据插入 Parquet 文件。

以下是可能影响 Parquet 文件大小的参数集:

我正在使用以下插入语句写入 Parquet 文件。

我想生成大约 1 GB 的文件大小和相应的分区数据,以便每个分区的 Parquet 格式的数据少于 1 GB。但是,此插入操作不会生成超过 512 MB 的单个文件。它将 512 MB 的数据写入一个文件,然后创建另一个文件并将其余数据写入另一个文件。如何将所有数据写入单个文件?