问题标签 [hive-serde]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
106 浏览

hive - 使用正则表达式分隔符将数据加载到配置单元表时获得额外的空值

我在 hdfs 上的文件中有以下 5 行数据。我想把它加载到一张桌子上。我有正则表达式可以做到这一点,但它为每行数据加载了额外的空行。有谁知道为什么会这样?

我用它来创建表

这几乎可以工作,但是当我从表中运行一个 select * 时,我得到 8 行而不是 4 行。看起来有额外的 NULLS 行被添加。

0 投票
0 回答
576 浏览

hadoop - 在 hive 中查询 json 数据集时无法读取外部资源

我创建了外部表,然后将 json 文件格式加载到表中。我已将 json jar 添加到 hive 中。

在我收到错误“从表名中选择 *”之后

错误“处理语句时出错:无法读取外部资源 hdfs://nameservice1/user/filepath”

0 投票
3 回答
2349 浏览

hive - hive 在使用 OpenCSVSerde 时未读取字符斜线

我在 hdfs 中存在的文件之上定义了一个表。我正在使用 OpenCSV Serde 从文件中读取。但是,数据中的“\”斜线字符在最终结果集中被省略。

是否有一个我没有正确使用的 hive serde 属性。根据文档,escapeChar = '\' 应该可以解决此问题。但是,问题仍然存在。

样本输出:

预期结果:

编辑 1:我都尝试过'\\' and '\'作为 escapeChar 并且都有同样的问题

0 投票
1 回答
4123 浏览

hadoop - 当我在 Hive 中使用 OpenCSVSerde 时,为什么所有列都被创建为字符串?

我正在尝试使用 OpenCSVSerde 以及一些整数和日期列创建一个表。但是这些列被转换为字符串。这是预期的结果吗?作为一种解决方法,我在这一步之后进行了显式类型转换(这使得整个运行速度变慢)

解释将数据类型更改为字符串的源代码。

0 投票
0 回答
146 浏览

twitter - 配置单元表查看使用水槽流式传输的 avro 记录,块大小对于此实现无效或太大:-40

我正在创建 hive serde 外部表来查看使用 flume 流式传输的 twitter 记录。

我的财产档案

查询创建 Hive 外部表

创建表后,当我点击 select * from twitter_tweets; 它没有提供任何数据,它通过了一个错误

我哪里出错了,我不知道为什么我会遇到这个块大小问题。谁能指导我。

0 投票
0 回答
132 浏览

xml - Hive XML Serde - 布尔 xpath 不解析

我正在使用这个XML Serde 创建一个简单的配置单元表,但是在尝试解析下面的 XPath 时它会引发异常。

我尝试将 VTD 和 Javax 处理器用于以下 xpath: column.xpath.is_application=/Msg/Header/Type='APP' 但它会引发以下异常:

VT:

java.lang.RuntimeException: com.ximpleware.XPathEvalException: BinaryExpr 无法评估节点集!

Javax.xml:

原因:javax.xml.xpath.XPathExpressionException:com.sun.org.apache.xpath.internal.XPathException:无法将#BOOLEAN 转换为NodeList!

示例 XML 文档

我究竟做错了什么?

0 投票
1 回答
48 浏览

hive - 如何通过 SERDE 将通用文件摄取构建到 Hive 中?

我需要将通用文件摄取构建到 Hive 中。文件非常大 (2GB+),可以是固定的或逗号分隔的 ASCII 或 EBCDIC 文件。在尝试了使用 Talend 的各种技术之后,我正在研究 SERDE。如果我按原样摄取文件并使用模式文件(包含序号位置、列名、类型、长度),我可以创建自定义 SERDE 以将任何输入文件反序列化为配置单元行吗?它的性能如何?

0 投票
1 回答
99 浏览

hadoop - 使用 csv-serde 时自动选择分隔符

使用以下方法创建了一个表:

当我尝试上传以逗号分隔的文件时,它已正确上传。如果我将管道配置为数据的分隔符,这怎么可能?csv-Serde 是否有一些识别分隔符的“智能”方式?

0 投票
1 回答
454 浏览

hive - 在 Hive 中,如何使用自定义分隔符 serde2 为结构数据类型指定半列分隔符

我正在尝试创建如下表。

我在创建的表中收到错误如下

有人可以帮忙吗?

0 投票
0 回答
724 浏览

hadoop - 如何将压缩的 csv 文件加载到配置单元表中?

我在 hdfs 的压缩文件中列出了一堆 csv 文件。有没有办法在具有正确数据的那些之上创建一个配置单元表?

注意:数据在 csv 文件中用 " 引用。