问题标签 [hive-serde]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
9840 浏览

hadoop - Hive 中的“InputFormat、OutputFormat”和“Stored as”有什么区别?

我是 Bigdata 的新手,目前正在学习 Hive。我将 Hive 中 InputFormat 和 OutputFormat 的概念理解为 SerDe 的一部分。我还了解到“存储为”用于以特定格式存储文件,就像 InputFormat 一样。但我不明白使用“输入格式、输出格式”和“存储为”之间的显着区别是什么。

任何帮助表示赞赏。

0 投票
1 回答
1905 浏览

json - Hive 自定义 Serde

我是 Hive 的新手,有一些东西可以解析格式的日志

到目前为止,从我的搜索中可以看出,有可用的 JSON Serde。

我可以扩展那些 JSON Serde 代码以满足我的需要吗?如果是这样,选择哪个 JSON serde 代码会更好?

如果这种方法不好,还有其他指针吗?

谢谢

0 投票
2 回答
5341 浏览

hadoop - java.lang.ClassNotFoundException:在 Hive 中找不到类 org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe

我正在尝试在配置单元中处理多字符分隔符。

我已经成功创建了一个相同的表

然后我需要发出如下查询。

但它给了我下面的错误

我应该下载任何罐子并放在某个位置吗?

请建议

0 投票
0 回答
1775 浏览

hive - Hive 错误:无法验证 serde:org.apache.hadoop.serde2.RegexSerde

我在这里很新,我正在尝试在我的 cloudera quickstart VM上运行以下代码。

"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\" [^\"]*\") (-|[0-9]*) (-|[0-9]*)", "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s" ) STORED AS TEXTFILE;

但我遇到了一些错误:

我做了一些研究,所有领域都是 STRING,我已经添加了 jar /usr/lib/hive/lib/hive-contrib.jar /usr/lib/hive/lib/hive-serde.jar /usr/lib/hive/lib/hive-common.jar

它仍然没有工作。真的需要一些帮助!任何输入将不胜感激!!!

0 投票
1 回答
324 浏览

hadoop - 将文本文件放入 hive 数据库

我试图运行这段代码这么长时间有人能告诉我它的代码有什么问题吗:-

错误 - 驱动程序返回:1。错误:OK FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1。无法验证 serde:org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe

我还添加了 hive-contrib 的 jar 文件。

0 投票
2 回答
783 浏览

hive - 如何在由 '^P' 分隔符分隔的数据上构建配置单元表

我的查询是:

(我不确定 '^P' 是否可以用作分隔符,但试过了)

当我将数据加载到配置单元表时,结果显示所有字段“无”。

数据如下:

4307421698^P200^P138193920770^P2017-03-08 02:46:18.021204^P2017-03-08 02:46:18.021204

请帮帮我。

0 投票
1 回答
600 浏览

json - 将 JSON 数据加载到配置单元表中

我尝试将JSON文件中的简单记录加载到配置单元表中,如下所示。每条JSON记录都在单独的行中。

但是我找不到任何可以将逗号分隔的记录serde数组加载到配置单元表中。输入是一个包含记录的文件,如下所示...(,)JSONJSON

有人可以建议我一个serde可以解析这个JSON文件的吗?

谢谢

0 投票
2 回答
1573 浏览

hive - 用于 ORC 或 RC 格式的 Hive Json SerDE

是否可以使用具有 RC 或 ORC 文件格式的 JSON serde?我正在尝试使用文件格式 ORC 插入 Hive 表并以序列化 JSON 的形式存储在 azure blob 中。

0 投票
2 回答
717 浏览

sql - 如何将数据添加到现有的 Hive Metastore?

我在 S3 中有多个包含 .orc 文件的子目录。我正在尝试创建一个配置单元元存储,以便我可以使用 Presto / Hive 等查询数据。数据结构很差(没有一致的分隔符、丑陋的字符等)。这是一个擦洗的样本:

我能够使用 serde 正则表达式创建一个指向其中一个子目录的表,并且这些字段正在正确解析,但据我所知,我一次只能加载一个子文件夹。

如何向现有的配置单元元存储添加更多数据?

这是我的配置单元元存储创建语句的示例,其中包含正则表达式 serde 位:

我意识到可能有一个非常简单的解决方案,但我尝试使用 INSERT INTO 代替 CREATE EXTERNAL TABLE,但它可以理解地抱怨输入,我查看了 hive 和 serde 文档以寻求帮助,但无法找到参考添加到现有商店。

0 投票
2 回答
763 浏览

json - Hive 中的嵌套 JSON 错误

我试图在配置单元中加载这个 json 数据

使用 DDL 命令

正在向我抛出错误