问题标签 [hive-serde]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - Hive serde 中特定分隔符字符串的正则表达式
我使用 serde 读取带有分隔符的特定格式的数据 |
我的一行数据可能如下所示:key1=value2|key2=value2|key3="va , lues",我创建的配置单元表如下:
我需要提取所有值,如果存在则忽略所有配额。结果看起来像
如何更改我当前的正则表达式提取值?
amazon-web-services - AWS Athena (JSON) 的 SerDe 属性列表
我正在测试 AWS 的 Athena 产品,目前运行良好。但我想知道 SerDe 属性列表。我已经搜索了很远,但找不到它。例如,我正在使用这个"ignore.malformed.json" = "true"
,但我很确定还有很多其他选项可以调整查询。
例如,我找不到有关“路径”属性的作用的信息,因此拥有完整列表将是惊人的。
我查看了 Apache Hive 文档但找不到这个,在 AWS 文档/论坛上也没有。
谢谢!
xml - 使用 SerDe 将嵌套的 XML 数据加载到 Hive
我正在尝试将嵌套的 XML 数据加载到 Hive 中。样本数据如下...
以下是我正在使用的命令:
我得到的输出是:
我得到,和的null
值。谁能帮我解决这个问题?OrderID
CustomerID
OrderDate
谢谢
json - 删除/映射 Hive 表上的重复键?
我有 JSON 文件要加载到 hive 表,但它包含重复键,使所有数据为空或无法在 Hive 上选择查询。
那些 JSON 文件有这样的东西:
{"timeSeries":"17051233123","id":"123","timeseries":"17051233123","name":"sample"}
我尝试创建配置单元表
如何使其成为可查询的配置单元表?
json - 来自 JSON 错误的 Hive
我无法以某种方式将此 json 放入配置单元表中,要么成为所有空数据,要么无法被选中。我的 DDL 只需要所有相同的字段,如果它在其中结构化,我想让它作为字符串而不是尝试解析它。
几乎只有通过以下方式实现的唯一一个:hive-hcatalog-core-1.1.0-cdh5.10.0.jar
由于某些数据是空白的,我可以使用 LIMIT 进行查询,但是当我删除限制时,它返回给我这种错误org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Field name expected
我的表创建:
如果需要,请使用在线 json 解析器,我的 JSON 大量看起来像这样:
你们知道为什么/解决方案吗?
hive - 使用 Hive Regex Serde 时防止插入 NULL
RegexSerDe 使用正则表达式 (regex) 来反序列化数据。它不支持数据序列化。它可以使用正则表达式反序列化数据并将组提取为列。在反序列化阶段,如果一行与正则表达式不匹配,则该行中的所有列都将为 NULL。如果一行与正则表达式匹配但组数少于预期,则缺少的组将为 NULL。如果一行与正则表达式匹配,但包含的组多于预期组,则会忽略其他组。
当行中存在不匹配并引发异常时,如何防止插入 NULL?
hadoop - Hive 中“存储为 InputFormat、OutputFormat”和“存储为”之间的区别
如果表是 ORC,则在执行 ashow create table
然后执行结果create table
语句时出现问题。
使用show create table
,你会得到这个:
但是,如果您使用这些子句创建表,则在选择时会出现转换错误。错误喜欢:
失败并出现异常 java.io.IOException:java.lang.ClassCastException: org.apache.hadoop.hive.ql.io.orc.OrcStruct 无法转换为 org.apache.hadoop.io.BinaryComparable
要解决此问题,只需将create table
语句更改为STORED AS ORC
But,正如类似问题中的答案所述:
Hive 中的“InputFormat、OutputFormat”和“Stored as”有什么区别?.
我想不出原因。
xml - XML 架构到 Hive 架构
我正在尝试将 xml 文件加载到配置单元表中。我在这里使用 xml serde 。我能够加载简单的平面 xml 文件。但是当 xml 中有嵌套元素时,我使用 hive 复杂数据类型来存储它们(例如,array<struct>
)。下面是我尝试加载的示例 xml。我的目标是将所有元素、属性和内容加载到配置单元表中。
我试图获得的 Hive 输出是......
我想将整个 xml 加载到单个配置单元列中。我尝试了以下方法:
但是我得到了Label
字段的空值。有人能帮我吗?
谢谢
xml - 复杂的 XML 模式到 Hive 模式
我正在尝试将 xml 文件加载到配置单元表中。我正在使用 xml serde [这里][1]。我能够加载简单的平面 xml 文件。但是当 xml 中有嵌套元素时,我使用 hive 复杂数据类型来存储它们(例如,array<struct>
)。下面是我尝试加载的示例 xml。我的目标是将所有元素、属性和内容加载到配置单元表中。
我试图获得的 Hive 输出是......
我想将整个 xml 加载到单个配置单元列中。我尝试了以下方法:
我得到的输出:
json - 从 JSON 数据创建配置单元表
我有一个包含 Json 数据的文件,格式如下:
前任:
上面的 Json 是一个有效的 Json。我想使用 JsonSerde 在上述表单的数据之上创建一个配置单元表。