问题标签 [hive-serde]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 使用正则表达式分隔符将数据加载到配置单元表时获得额外的空值
我在 hdfs 上的文件中有以下 5 行数据。我想把它加载到一张桌子上。我有正则表达式可以做到这一点,但它为每行数据加载了额外的空行。有谁知道为什么会这样?
我用它来创建表
这几乎可以工作,但是当我从表中运行一个 select * 时,我得到 8 行而不是 4 行。看起来有额外的 NULLS 行被添加。
hadoop - 在 hive 中查询 json 数据集时无法读取外部资源
我创建了外部表,然后将 json 文件格式加载到表中。我已将 json jar 添加到 hive 中。
在我收到错误“从表名中选择 *”之后
错误“处理语句时出错:无法读取外部资源 hdfs://nameservice1/user/filepath”
hive - hive 在使用 OpenCSVSerde 时未读取字符斜线
我在 hdfs 中存在的文件之上定义了一个表。我正在使用 OpenCSV Serde 从文件中读取。但是,数据中的“\”斜线字符在最终结果集中被省略。
是否有一个我没有正确使用的 hive serde 属性。根据文档,escapeChar = '\' 应该可以解决此问题。但是,问题仍然存在。
样本输出:
预期结果:
编辑 1:我都尝试过'\\' and '\'
作为 escapeChar 并且都有同样的问题
hadoop - 当我在 Hive 中使用 OpenCSVSerde 时,为什么所有列都被创建为字符串?
我正在尝试使用 OpenCSVSerde 以及一些整数和日期列创建一个表。但是这些列被转换为字符串。这是预期的结果吗?作为一种解决方法,我在这一步之后进行了显式类型转换(这使得整个运行速度变慢)
解释将数据类型更改为字符串的源代码。
twitter - 配置单元表查看使用水槽流式传输的 avro 记录,块大小对于此实现无效或太大:-40
我正在创建 hive serde 外部表来查看使用 flume 流式传输的 twitter 记录。
我的财产档案
查询创建 Hive 外部表
创建表后,当我点击 select * from twitter_tweets; 它没有提供任何数据,它通过了一个错误
我哪里出错了,我不知道为什么我会遇到这个块大小问题。谁能指导我。
xml - Hive XML Serde - 布尔 xpath 不解析
我正在使用这个XML Serde 创建一个简单的配置单元表,但是在尝试解析下面的 XPath 时它会引发异常。
我尝试将 VTD 和 Javax 处理器用于以下 xpath:
column.xpath.is_application=/Msg/Header/Type='APP'
但它会引发以下异常:
VT:
java.lang.RuntimeException: com.ximpleware.XPathEvalException: BinaryExpr 无法评估节点集!
Javax.xml:
原因:javax.xml.xpath.XPathExpressionException:com.sun.org.apache.xpath.internal.XPathException:无法将#BOOLEAN 转换为NodeList!
示例 XML 文档
我究竟做错了什么?
hive - 如何通过 SERDE 将通用文件摄取构建到 Hive 中?
我需要将通用文件摄取构建到 Hive 中。文件非常大 (2GB+),可以是固定的或逗号分隔的 ASCII 或 EBCDIC 文件。在尝试了使用 Talend 的各种技术之后,我正在研究 SERDE。如果我按原样摄取文件并使用模式文件(包含序号位置、列名、类型、长度),我可以创建自定义 SERDE 以将任何输入文件反序列化为配置单元行吗?它的性能如何?
hadoop - 使用 csv-serde 时自动选择分隔符
使用以下方法创建了一个表:
当我尝试上传以逗号分隔的文件时,它已正确上传。如果我将管道配置为数据的分隔符,这怎么可能?csv-Serde 是否有一些识别分隔符的“智能”方式?
hive - 在 Hive 中,如何使用自定义分隔符 serde2 为结构数据类型指定半列分隔符
我正在尝试创建如下表。
我在创建的表中收到错误如下
有人可以帮忙吗?
hadoop - 如何将压缩的 csv 文件加载到配置单元表中?
我在 hdfs 的压缩文件中列出了一堆 csv 文件。有没有办法在具有正确数据的那些之上创建一个配置单元表?
注意:数据在 csv 文件中用 " 引用。