问题标签 [regexserde]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
276 浏览

hive - Hive 表属性将连续分隔符视为一个分隔符

在上面的数据集中,第二行的第 1 列和第 2 列之间有连续的分隔符,如何将连续的分隔符作为一个分隔符处理。

0 投票
1 回答
150 浏览

hive - 使用 Hive Regex Serde 时防止插入 NULL

RegexSerDe 使用正则表达式 (regex) 来反序列化数据。它不支持数据序列化。它可以使用正则表达式反序列化数据并将组提取为列。在反序列化阶段,如果一行与正则表达式不匹配,则该行中的所有列都将为 NULL。如果一行与正则表达式匹配但组数少于预期,则缺少的组将为 NULL。如果一行与正则表达式匹配,但包含的组多于预期组,则会忽略其他组。

当行中存在不匹配并引发异常时,如何防止插入 NULL?

0 投票
1 回答
371 浏览

csv - 在 HIVE 中使用 csv 文件将数据插入表中

我使用上面的命令创建了配置单元表。现在我想使用加载数据命令将以下行(在 CSV 文件中)加载到表中。加载数据命令显示状态正常,但我看不到该表中的数据。

0 投票
0 回答
145 浏览

regex - Hive RegexSerDe 多行日志匹配在一行之后显示 NULL 值

尝试为单行加载多行的 Apache Tomcat 日志,但它只加载单行并显示其余行的 NULL 值,直到它到达下一条记录。

我已经尝试过之前帖子中的正则表达式,但它们不起作用,相同的正则表达式正在测试工具中工作,这里是其中之一的链接: http ://rubular.com/r/nVrWhuwg1c

它可以正确识别这些行并将它们分成正确的组,但是当我在蜂巢中尝试它不起作用时,它的代码相同。

样本记录:

0 投票
1 回答
37 浏览

hive - 具有 regexserde 属性的 Hive 无法正常工作

我使用 regex101 网站来验证我的正则表达式:

它适用于下面的日志

但是相同的表达式在 hive 上不起作用:

如果有人知道,请帮助我。

提前致谢。

0 投票
1 回答
43 浏览

regex - 为非结构化数据创建一个配置单元表

如何为以下数据创建配置单元表 ..??

0 投票
1 回答
811 浏览

regex - Regex SerDe 不支持 serialize() 方法错误

我有一个如下表结构。

我试图在下表中插入一条记录。

尝试将数据插入表中时,遇到以下错误。

原因:java.lang.UnsupportedOperationException:Regex SerDe 不支持 org.apache.hadoop.hive.serde2.RegexSerDe.serialize(RegexSerDe.java:289) 处的 serialize() 方法

知道出了什么问题吗?

0 投票
1 回答
231 浏览

hadoop - 使用多分隔符在 hive 中插入数据

如何使用多重分隔符在配置单元中插入数据,并且在未指定分隔符的列之间插入数据。

以下是我的数据:

我只想在我的配置单元表中插入前 7 列,并且我有一个用于上述数据的 txt 文件。

创建表脚本:

我的数据插入脚本如下:

以下是我的选择语句和错误:

错误 :

0 投票
1 回答
110 浏览

hive - 我们可以从一行创建多个条目吗?

我的日志如下所示: client_id;event_1;event_2;event3

我想得到一个这样的 SQL 表:

我是 Hive 的新手,在我看来,一条日志行总是在生成的 SQL 表中提供一个条目。我尝试了以下(不成功):

它只需要第一个事件而忽略其他事件......

0 投票
1 回答
297 浏览

regex - hive create table input.regex - 过滤掉所有以 char 开头的行

我想在 Hive 中创建表

p>

但源数据具有以“#”开头的多行标题

是否可以编写reg_exp来过滤掉所有以所选字符开头的行,或者我是否必须使用临时表来处理这个标题?