问题标签 [impala]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1876 问题

0 投票

1 回答

1802 浏览

database - 将数据加载到 impala 分区表中

我在 HDFS 中有以下目录结构中的数据：

每个子目录中有多个零件文件。

我想将此数据集加载到 impala 表中，因此使用以下查询创建表：

CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP, ..... url STRING,domain STRING) PARTITIONED BY (year INT, month INT, day INT.hour INT) 行格式分隔字段以 '\t' 结尾；

然后

但它无法加载并出现以下错误：

不确定执行此操作的正确方法是什么。

任何人都可以在这方面提供帮助吗？

谢谢

database hadoop database-schema cloudera impala

2014-08-21T20:10:17.167

0 投票

1 回答

3204 浏览

database - 如何修复“错误转换列：0 TO TIMESTAMP”？

我有存储在 HDFS 上的文本文件中的数据，具有以下目录结构：

因此，我使用以下查询在 impala 中创建了一个外部表：

并将数据加载到其中：

适用于所有可用的日期和时间。它已成功加载，我通过计算行数来验证这一点。

但是当我尝试select * from search limit 10;它时给出错误“错误转换列：0 TO TIMESTAMP（数据为：1406965816）”

time_stamp 的原始值为 Unix 时间戳格式。如何将它从 unix 时间戳转换为 Impala TIMESTAMP 数据类型？

database hadoop hive impala

2014-08-25T15:55:35.007

0 投票

2 回答

4343 浏览

hive - Pentaho 中的 Hive 数据集成错误

我正在使用 Bigdata Lite3.0、Pentaho 5.1、CDH5.0。我想使用 Pentaho 连接 Hive 表。

在尝试连接时，我遇到了以下错误。

主机名：本地主机端口：8888 数据库名称：默认

等待你的回复

问候，吉腾

hive bigdata pentaho data-integration impala

2014-08-27T07:25:51.157

0 投票

2 回答

6923 浏览

cloudera - 如何按周分组 Cloudera impala

如何按周对 Impala 查询结果进行分组？数据如下：

预期结果是：

谢谢你。

cloudera impala

2014-09-01T03:51:00.660

0 投票

3 回答

7226 浏览

csv - Impala 不支持自定义 SerDe，查询带双引号的 CSV 文件的最佳方法是什么？

我有一个 CSV 数据，每个字段都用双引号括起来。当我创建 Hive 表使用 serde 'com.bizo.hive.serde.csv.CSVSerde' 在 Impala 中查询上表时，我收到错误 SerDe not found。

我在 /usr/lib/impala/lib 文件夹中添加了 CSV Serde JAR 文件。

后来在 Impala 文档中研究了 Impala 不支持自定义 SERDE。在这种情况下，我该如何克服这个问题，以便我的带引号的 CSV 数据得到处理。我想使用 CSV Serde，因为它在值中使用逗号，这是一个合法的字段值。

非常感谢

csv hadoop double-quotes impala

2014-09-03T10:56:37.513

0 投票

1 回答

1528 浏览

hadoop - 启动 Impala 的问题

我一直在尝试在本地 Hadoop 安装上安装和启动 Impala。下面是使用的错误日志impalad。Impala 服务器位于辅助名称节点 (nn02.tcs.com)

我可以通过以下方式访问相同的 HDFS：

我可以通过名称节点中的浏览器访问名称节点 (nn01.tcs.com) 中的站点：

http://nn01.tcs.com:8020 - 我收到以下消息

看起来您正在向 Hadoop IPC 端口发出 HTTP 请求。这不是此守护程序上 Web 界面的正确端口。

请帮助解决此错误

hadoop hive impala

2014-09-04T04:02:40.933

0 投票

0 回答

358 浏览

database - Tableau中时间戳的数据类型可以快速读取吗？

我们想从后端数据存储（示例 Vertica）将大数据集查询到 Tableau。时间戳在 TIMESTAMP 中。因为我们要在 Tableau 仪表板中的时间戳字段上创建过滤器，这将限制查询运行时间。

现在时间戳字段的数据类型是 TIMESTAMP，当 Tableau 查询该时间时，它使用 CAST 使查询运行缓慢。

所以有人知道解决这个问题的最佳方法吗？

谢谢

database visualization tableau-api vertica impala

2014-09-08T20:44:32.470

0 投票

1 回答

240 浏览

sql - “order by”的 Hive、Impala、HBASE 和 SQL 比较

我对 hive、impala、HBASE 完全陌生。我正在做一些全文搜索应用程序。我在 oracle 平台上的 SQL 中使用 order by 对相关性进行排序是一个痛苦的步骤。想知道我在 hadoop 生态系统中更改它是否会有所帮助。希望有人可以帮助解决这个问题。提前致谢。

sql hadoop hive hbase impala

2014-09-10T16:23:10.257

0 投票

1 回答

784 浏览

java - 在 impala 1.2.4 中实现 rank 函数（rank over partition by）？

到目前为止，我无法在 impala（版本 1.2.4）中找到分区和排名功能。有没有办法实现它？

我也无法更新 impala 版本，因为我正在使用亚马逊网络服务。

java jar impala

2014-09-17T18:39:19.010

0 投票

1 回答

967 浏览

hadoop - 插入 Parquet 文件会生成 512 MB 文件。如何生成 1 GB 的文件？

我正在测试 Parquet 文件格式并使用 Impala 外部表将数据插入 Parquet 文件。

以下是可能影响 Parquet 文件大小的参数集：

我正在使用以下插入语句写入 Parquet 文件。

我想生成大约 1 GB 的文件大小和相应的分区数据，以便每个分区的 Parquet 格式的数据少于 1 GB。但是，此插入操作不会生成超过 512 MB 的单个文件。它将 512 MB 的数据写入一个文件，然后创建另一个文件并将其余数据写入另一个文件。如何将所有数据写入单个文件？

hadoop impala parquet

2014-09-17T18:50:51.217

1 2 3 4 5 6 7 8 9 10