问题标签 [hive-serde]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
209 浏览

hadoop - 创建表时,我可以在配置单元中一次使用 2 个字段终止符(如“,”和“。”)吗?

我有一个文件idyear. 我的字段由,和分隔.。我有没有机会代替由 can I use ,and终止的字段.

0 投票
0 回答
750 浏览

amazon-web-services - AWS EMR Hive 由于 serde2/serde 而失败

我在 S3 上运行 EMR 配置单元查询,但它失败说“映射运算符初始化失败”

我尝试HADOOP_CLASSPATH如下设置,仍然没有运气。

另外,在罐子下面添加,

add jar /usr/hive/json-serde-1.3.7-jar-with-dependencies.jar. 此 jar 文件存在于给定路径中。

我不确定它为什么抱怨如下:

日志如下:

vertexName=Map 1, vertexId=vertex_1515176779844_0076_2_05, diagnostics=[Vertex 在 RUNNING 状态下收到 Kill。,由于 OTHER_VERTEX_FAILURE,Vertex 没有成功,failedTasks:0killedTasks:139,Vertex vertex_1515176779844_0076_2_05 [Map 1_killed/failure]由于 VERTEX_FAILURE,DAG 没有成功。failedVertices:1 killVertices:8 FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 2。Vertex failed, vertexName=Map 10, vertexId=vertex_1515176779844_0076_2_02, diagnostics=[Task failed, taskId=task_1515176779844_0076_2_02_000031, diagnostics=[TaskAttempt 0 failed, info=[Error: Error while running task ( failure ) : attempt_1515176779844_0076_2_02_000031_0:java.lang.RuntimeException: java.lang.RuntimeException:

0 投票
1 回答
371 浏览

csv - 在 HIVE 中使用 csv 文件将数据插入表中

我使用上面的命令创建了配置单元表。现在我想使用加载数据命令将以下行(在 CSV 文件中)加载到表中。加载数据命令显示状态正常,但我看不到该表中的数据。

0 投票
0 回答
195 浏览

hadoop - 如何使用两个分隔符在配置单元中加载数据

我有格式的样本记录

9220216686,2011-05-05 22:48:26,28,C,PRE_HOST10_JINGLE_PP-PREF_WELCOME_PP-PREF_PROMO_PP|M001:6|M487:8|M312:3|M183:3|M093,CD,49,

我想基于分隔符,|分隔符将数据加载到配置单元中。我搜索并想出了MultiDelimitSerDe。但我面临的问题是某些记录将在 M 起始字段中具有最小列,例如

9220216686,2011-05-05 22:48:26,28,C,PRE_HOST10_JINGLE_PP-PREF_WELCOME_PP-PREF_PROMO_PP|M001:6|M487:4,CD,49,

该记录仅包含两个 M 起始字段。我知道我们可以使用 map-reduce 作业来解决这个问题。但是有什么方法可以有效地将数据加载到单个查询的配置单元中?

0 投票
1 回答
791 浏览

hadoop - Hive 中的 CSV Serde 格式,用于表中的不同值类型

CSV 文件包含以下混乱格式的用户调查,并包含许多不同的数据类型,如字符串、整数、范围。

中国, 20-30, 男, xxxxx, yyyyy, 移动开发者;zzzz-vvvv;“40,000-50,000 美元”,咨询

日本, 30-40, 女, xxxxx, , 软件开发者, zzzz-vvvv; “40,000-50,000 美元”,开发

. . . . .

下面的代码用于将 CSV 文件转换为 Hive 表,每列正确分配了各自的值。

这段代码运行良好,每一列都分别分配了它们的值。所有选择查询都会给出真实的结果。

现在,当尝试从具有较少列的上表(“2016table”)创建另一个表(“2016sort”)时,值在不同的列中混合在一起。

用于此的代码

但是这段代码弄乱了值。SELECT gender1 from 2016sort 给出性别列的混合值以及其他列的值。

谁能帮我弄清楚缺少什么!

0 投票
1 回答
860 浏览

hadoop - 无法有效映射 Hive 表中的 HBase 行键

我有一个 HBase 表,其中行键看起来像这样。

我使用以下查询创建了一个 Hive 链接表。

当我查询表格时,我得到以下结果

这对我来说很奇怪。为什么 serde 无法映射 HBase 密钥的全部内容?蜂巢表在第二个“:”之后缺少所有内容

有没有人遇到过类似的问题?

0 投票
1 回答
120 浏览

hadoop - 使用 JSON Serde:java.net.URISyntaxException

我是 Hive 的新手,任何人都可以帮助我解决我在尝试创建下表时收到的以下错误:

错误是:

我的数据采用以下形式:

提前致谢。

0 投票
2 回答
514 浏览

json - hive 是否允许列名作为“行”?

我知道每个 hive 版本都有一些保留关键字,不能用作列名。

但问题是我的数据来自 json,而我的列名是根据 json 值。

而且我不能修改数据。有没有替代品??

这是一行样本数据和表格。

0 投票
1 回答
976 浏览

hive - 如何反序列化 Hive 中的 ProtoBuf 序列化 HBase 列?

我已经使用 ProtoBuf 序列化类并存储在 HBase 列中。我想减少简单聚合的 Map Reduce 作业的数量,所以我需要类似 SQL 的工具来查询数据。如果我使用 Hive,是否可以扩展 HBaseStorageHandler 并为每个表编写我们自己的 Serde?或者任何其他好的解决方案都是可用的。

更新:

我将 HBase 表创建为

创建“蜂巢:用户”,“我”

并从 java api 插入用户数据,

我的扫描结果如下:

当我在 Hive 中查询表时,我看不到任何记录。这是我用来创建表的命令。

当我查询配置单元表时,我没有看到从 hbase 插入的记录。

你能告诉我这里有什么问题吗?

0 投票
1 回答
261 浏览

csv - 无法在蜂巢中投列

我使用 serde 将 csv 文件加载到 hive 表中。像往常一样,它将所有列类型创建为字符串。但是当我尝试将列转换为它们各自的数据类型时,它会抛出一个错误,尤其是在将字符串类型转换为数组类型时。

失败:ParseException line 7:13 无法识别原始类型规范中“array”“<”“string”附近的输入

如何将标签列从字符串类型转换为数组类型?