问题标签 [regexserde]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - Hive 表属性将连续分隔符视为一个分隔符
在上面的数据集中,第二行的第 1 列和第 2 列之间有连续的分隔符,如何将连续的分隔符作为一个分隔符处理。
hive - 使用 Hive Regex Serde 时防止插入 NULL
RegexSerDe 使用正则表达式 (regex) 来反序列化数据。它不支持数据序列化。它可以使用正则表达式反序列化数据并将组提取为列。在反序列化阶段,如果一行与正则表达式不匹配,则该行中的所有列都将为 NULL。如果一行与正则表达式匹配但组数少于预期,则缺少的组将为 NULL。如果一行与正则表达式匹配,但包含的组多于预期组,则会忽略其他组。
当行中存在不匹配并引发异常时,如何防止插入 NULL?
csv - 在 HIVE 中使用 csv 文件将数据插入表中
我使用上面的命令创建了配置单元表。现在我想使用加载数据命令将以下行(在 CSV 文件中)加载到表中。加载数据命令显示状态正常,但我看不到该表中的数据。
regex - Hive RegexSerDe 多行日志匹配在一行之后显示 NULL 值
尝试为单行加载多行的 Apache Tomcat 日志,但它只加载单行并显示其余行的 NULL 值,直到它到达下一条记录。
我已经尝试过之前帖子中的正则表达式,但它们不起作用,相同的正则表达式正在测试工具中工作,这里是其中之一的链接: http ://rubular.com/r/nVrWhuwg1c
它可以正确识别这些行并将它们分成正确的组,但是当我在蜂巢中尝试它不起作用时,它的代码相同。
样本记录:
hive - 具有 regexserde 属性的 Hive 无法正常工作
我使用 regex101 网站来验证我的正则表达式:
它适用于下面的日志
但是相同的表达式在 hive 上不起作用:
如果有人知道,请帮助我。
提前致谢。
regex - 为非结构化数据创建一个配置单元表
如何为以下数据创建配置单元表 ..??
regex - Regex SerDe 不支持 serialize() 方法错误
我有一个如下表结构。
我试图在下表中插入一条记录。
尝试将数据插入表中时,遇到以下错误。
原因:java.lang.UnsupportedOperationException:Regex SerDe 不支持 org.apache.hadoop.hive.serde2.RegexSerDe.serialize(RegexSerDe.java:289) 处的 serialize() 方法
知道出了什么问题吗?
hadoop - 使用多分隔符在 hive 中插入数据
如何使用多重分隔符在配置单元中插入数据,并且在未指定分隔符的列之间插入数据。
以下是我的数据:
我只想在我的配置单元表中插入前 7 列,并且我有一个用于上述数据的 txt 文件。
创建表脚本:
我的数据插入脚本如下:
以下是我的选择语句和错误:
错误 :
hive - 我们可以从一行创建多个条目吗?
我的日志如下所示:
client_id;event_1;event_2;event3
我想得到一个这样的 SQL 表:
我是 Hive 的新手,在我看来,一条日志行总是在生成的 SQL 表中提供一个条目。我尝试了以下(不成功):
它只需要第一个事件而忽略其他事件......
regex - hive create table input.regex - 过滤掉所有以 char 开头的行
我想在 Hive 中创建表
p>但源数据具有以“#”开头的多行标题
是否可以编写reg_exp来过滤掉所有以所选字符开头的行,或者我是否必须使用临时表来处理这个标题?