问题标签 [impala]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - 将数据加载到 impala 分区表中
我在 HDFS 中有以下目录结构中的数据:
每个子目录中有多个零件文件。
我想将此数据集加载到 impala 表中,因此使用以下查询创建表:
CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP, ..... url STRING,domain STRING) PARTITIONED BY (year INT, month INT, day INT.hour INT) 行格式分隔字段以 '\t' 结尾;
然后
但它无法加载并出现以下错误:
不确定执行此操作的正确方法是什么。
任何人都可以在这方面提供帮助吗?
谢谢
database - 如何修复“错误转换列:0 TO TIMESTAMP”?
我有存储在 HDFS 上的文本文件中的数据,具有以下目录结构:
因此,我使用以下查询在 impala 中创建了一个外部表:
并将数据加载到其中:
适用于所有可用的日期和时间。它已成功加载,我通过计算行数来验证这一点。
但是当我尝试select * from search limit 10;
它时给出错误“错误转换列:0 TO TIMESTAMP(数据为:1406965816)”
time_stamp 的原始值为 Unix 时间戳格式。如何将它从 unix 时间戳转换为 Impala TIMESTAMP 数据类型?
hive - Pentaho 中的 Hive 数据集成错误
我正在使用 Bigdata Lite3.0、Pentaho 5.1、CDH5.0。我想使用 Pentaho 连接 Hive 表。
在尝试连接时,我遇到了以下错误。
主机名:本地主机端口:8888 数据库名称:默认
等待你的回复
问候, 吉腾
cloudera - 如何按周分组 Cloudera impala
如何按周对 Impala 查询结果进行分组?数据如下:
预期结果是:
谢谢你。
csv - Impala 不支持自定义 SerDe,查询带双引号的 CSV 文件的最佳方法是什么?
我有一个 CSV 数据,每个字段都用双引号括起来。当我创建 Hive 表使用 serde 'com.bizo.hive.serde.csv.CSVSerde' 在 Impala 中查询上表时,我收到错误 SerDe not found。
我在 /usr/lib/impala/lib 文件夹中添加了 CSV Serde JAR 文件。
后来在 Impala 文档中研究了 Impala 不支持自定义 SERDE。在这种情况下,我该如何克服这个问题,以便我的带引号的 CSV 数据得到处理。我想使用 CSV Serde,因为它在值中使用逗号,这是一个合法的字段值。
非常感谢
hadoop - 启动 Impala 的问题
我一直在尝试在本地 Hadoop 安装上安装和启动 Impala。下面是使用的错误日志impalad
。Impala 服务器位于辅助名称节点 (nn02.tcs.com)
我可以通过以下方式访问相同的 HDFS:
我可以通过名称节点中的浏览器访问名称节点 (nn01.tcs.com) 中的站点:
http://nn01.tcs.com:8020 - 我收到以下消息
看起来您正在向 Hadoop IPC 端口发出 HTTP 请求。这不是此守护程序上 Web 界面的正确端口。
请帮助解决此错误
database - Tableau中时间戳的数据类型可以快速读取吗?
我们想从后端数据存储(示例 Vertica)将大数据集查询到 Tableau。时间戳在 TIMESTAMP 中。因为我们要在 Tableau 仪表板中的时间戳字段上创建过滤器,这将限制查询运行时间。
现在时间戳字段的数据类型是 TIMESTAMP,当 Tableau 查询该时间时,它使用 CAST 使查询运行缓慢。
所以有人知道解决这个问题的最佳方法吗?
谢谢
sql - “order by”的 Hive、Impala、HBASE 和 SQL 比较
我对 hive、impala、HBASE 完全陌生。我正在做一些全文搜索应用程序。我在 oracle 平台上的 SQL 中使用 order by 对相关性进行排序是一个痛苦的步骤。想知道我在 hadoop 生态系统中更改它是否会有所帮助。希望有人可以帮助解决这个问题。提前致谢。
java - 在 impala 1.2.4 中实现 rank 函数(rank over partition by)?
到目前为止,我无法在 impala(版本 1.2.4)中找到分区和排名功能。有没有办法实现它?
我也无法更新 impala 版本,因为我正在使用亚马逊网络服务。
hadoop - 插入 Parquet 文件会生成 512 MB 文件。如何生成 1 GB 的文件?
我正在测试 Parquet 文件格式并使用 Impala 外部表将数据插入 Parquet 文件。
以下是可能影响 Parquet 文件大小的参数集:
我正在使用以下插入语句写入 Parquet 文件。
我想生成大约 1 GB 的文件大小和相应的分区数据,以便每个分区的 Parquet 格式的数据少于 1 GB。但是,此插入操作不会生成超过 512 MB 的单个文件。它将 512 MB 的数据写入一个文件,然后创建另一个文件并将其余数据写入另一个文件。如何将所有数据写入单个文件?