问题标签 [hive-serde]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
282 浏览

regex - Hive serde 中特定分隔符字符串的正则表达式

我使用 serde 读取带有分隔符的特定格式的数据 |

我的一行数据可能如下所示:key1=value2|key2=value2|key3="va , lues",我创建的配置单元表如下:

我需要提取所有值,如果存在则忽略所有配额。结果看起来像

如何更改我当前的正则表达式提取值?

0 投票
2 回答
4429 浏览

amazon-web-services - AWS Athena (JSON) 的 SerDe 属性列表

我正在测试 AWS 的 Athena 产品,目前运行良好。但我想知道 SerDe 属性列表。我已经搜索了很远,但找不到它。例如,我正在使用这个"ignore.malformed.json" = "true",但我很确定还有很多其他选项可以调整查询。

例如,我找不到有关“路径”属性的作用的信息,因此拥有完整列表将是惊人的。

我查看了 Apache Hive 文档但找不到这个,在 AWS 文档/论坛上也没有。

谢谢!

0 投票
1 回答
1593 浏览

xml - 使用 SerDe 将嵌套的 XML 数据加载到 Hive

我正在尝试将嵌套的 XML 数据加载到 Hive 中。样本数据如下...

以下是我正在使用的命令:

我得到的输出是:

我得到,和的null值。谁能帮我解决这个问题?OrderIDCustomerIDOrderDate

谢谢

0 投票
1 回答
1609 浏览

json - 删除/映射 Hive 表上的重复键?

我有 JSON 文件要加载到 hive 表,但它包含重复键,使所有数据为空或无法在 Hive 上选择查询。

那些 JSON 文件有这样的东西:

{"timeSeries":"17051233123","id":"123","timeseries":"17051233123","name":"sample"}

我尝试创建配置单元表

如何使其成为可查询的配置单元表?

0 投票
2 回答
2018 浏览

json - 来自 JSON 错误的 Hive

我无法以某种方式将此 json 放入配置单元表中,要么成为所有空数据,要么无法被选中。我的 DDL 只需要所有相同的字段,如果它在其中结构化,我想让它作为字符串而不是尝试解析它。

几乎只有通过以下方式实现的唯一一个:hive-hcatalog-core-1.1.0-cdh5.10.0.jar由于某些数据是空白的,我可以使用 LIMIT 进行查询,但是当我删除限制时,它返回给我这种错误org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Field name expected

我的表创建:

如果需要,请使用在线 json 解析器,我的 JSON 大量看起来像这样:

你们知道为什么/解决方案吗?

0 投票
1 回答
150 浏览

hive - 使用 Hive Regex Serde 时防止插入 NULL

RegexSerDe 使用正则表达式 (regex) 来反序列化数据。它不支持数据序列化。它可以使用正则表达式反序列化数据并将组提取为列。在反序列化阶段,如果一行与正则表达式不匹配,则该行中的所有列都将为 NULL。如果一行与正则表达式匹配但组数少于预期,则缺少的组将为 NULL。如果一行与正则表达式匹配,但包含的组多于预期组,则会忽略其他组。

当行中存在不匹配并引发异常时,如何防止插入 NULL?

0 投票
2 回答
8759 浏览

hadoop - Hive 中“存储为 InputFormat、OutputFormat”和“存储为”之间的区别

如果表是 ORC,则在执行 ashow create table然后执行结果create table语句时出现问题。

使用show create table,你会得到这个:

但是,如果您使用这些子句创建表,则在选择时会出现转换错误。错误喜欢:

失败并出现异常 java.io.IOException:java.lang.ClassCastException: org.apache.hadoop.hive.ql.io.orc.OrcStruct 无法转换为 org.apache.hadoop.io.BinaryComparable


要解决此问题,只需将create table语句更改为STORED AS ORC

But,正如类似问题中的答案所述: Hive 中的“InputFormat、OutputFormat”和“Stored as”有什么区别?.

我想不出原因。

0 投票
1 回答
1114 浏览

xml - XML 架构到 Hive 架构

我正在尝试将 xml 文件加载到配置单元表中。我在这里使用 xml serde 。我能够加载简单的平面 xml 文件。但是当 xml 中有嵌套元素时,我使用 hive 复杂数据类型来存储它们(例如,array<struct>)。下面是我尝试加载的示例 xml。我的目标是将所有元素、属性和内容加载到配置单元表中。

我试图获得的 Hive 输出是......

我想将整个 xml 加载到单个配置单元列中。我尝试了以下方法:

但是我得到了Label字段的空值。有人能帮我吗?

谢谢

0 投票
0 回答
708 浏览

xml - 复杂的 XML 模式到 Hive 模式

我正在尝试将 xml 文件加载到配置单元表中。我正在使用 xml serde [这里][1]。我能够加载简单的平面 xml 文件。但是当 xml 中有嵌套元素时,我使用 hive 复杂数据类型来存储它们(例如,array<struct>)。下面是我尝试加载的示例 xml。我的目标是将所有元素、属性和内容加载到配置单元表中。

我试图获得的 Hive 输出是......

我想将整个 xml 加载到单个配置单元列中。我尝试了以下方法:

我得到的输出:

0 投票
1 回答
4133 浏览

json - 从 JSON 数据创建配置单元表

我有一个包含 Json 数据的文件,格式如下:

前任:

上面的 Json 是一个有效的 Json。我想使用 JsonSerde 在上述表单的数据之上创建一个配置单元表。