问题标签 [hive-serde]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 创建表时,我可以在配置单元中一次使用 2 个字段终止符(如“,”和“。”)吗?
我有一个文件id
和year
. 我的字段由,
和分隔.
。我有没有机会代替由 can I use ,
and终止的字段.
?
amazon-web-services - AWS EMR Hive 由于 serde2/serde 而失败
我在 S3 上运行 EMR 配置单元查询,但它失败说“映射运算符初始化失败”
我尝试HADOOP_CLASSPATH
如下设置,仍然没有运气。
另外,在罐子下面添加,
add jar /usr/hive/json-serde-1.3.7-jar-with-dependencies.jar
. 此 jar 文件存在于给定路径中。
我不确定它为什么抱怨如下:
日志如下:
vertexName=Map 1, vertexId=vertex_1515176779844_0076_2_05, diagnostics=[Vertex 在 RUNNING 状态下收到 Kill。,由于 OTHER_VERTEX_FAILURE,Vertex 没有成功,failedTasks:0killedTasks:139,Vertex vertex_1515176779844_0076_2_05 [Map 1_killed/failure]由于 VERTEX_FAILURE,DAG 没有成功。failedVertices:1 killVertices:8 FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 2。Vertex failed, vertexName=Map 10, vertexId=vertex_1515176779844_0076_2_02, diagnostics=[Task failed, taskId=task_1515176779844_0076_2_02_000031, diagnostics=[TaskAttempt 0 failed, info=[Error: Error while running task ( failure ) : attempt_1515176779844_0076_2_02_000031_0:java.lang.RuntimeException: java.lang.RuntimeException:
csv - 在 HIVE 中使用 csv 文件将数据插入表中
我使用上面的命令创建了配置单元表。现在我想使用加载数据命令将以下行(在 CSV 文件中)加载到表中。加载数据命令显示状态正常,但我看不到该表中的数据。
hadoop - 如何使用两个分隔符在配置单元中加载数据
我有格式的样本记录
9220216686,2011-05-05 22:48:26,28,C,PRE_HOST10_JINGLE_PP-PREF_WELCOME_PP-PREF_PROMO_PP|M001:6|M487:8|M312:3|M183:3|M093,CD,49,
我想基于分隔符,
和|
分隔符将数据加载到配置单元中。我搜索并想出了MultiDelimitSerDe
。但我面临的问题是某些记录将在 M 起始字段中具有最小列,例如
9220216686,2011-05-05 22:48:26,28,C,PRE_HOST10_JINGLE_PP-PREF_WELCOME_PP-PREF_PROMO_PP|M001:6|M487:4,CD,49,
该记录仅包含两个 M 起始字段。我知道我们可以使用 map-reduce 作业来解决这个问题。但是有什么方法可以有效地将数据加载到单个查询的配置单元中?
hadoop - Hive 中的 CSV Serde 格式,用于表中的不同值类型
CSV 文件包含以下混乱格式的用户调查,并包含许多不同的数据类型,如字符串、整数、范围。
中国, 20-30, 男, xxxxx, yyyyy, 移动开发者;zzzz-vvvv;“40,000-50,000 美元”,咨询
日本, 30-40, 女, xxxxx, , 软件开发者, zzzz-vvvv; “40,000-50,000 美元”,开发
. . . . .
下面的代码用于将 CSV 文件转换为 Hive 表,每列正确分配了各自的值。
这段代码运行良好,每一列都分别分配了它们的值。所有选择查询都会给出真实的结果。
现在,当尝试从具有较少列的上表(“2016table”)创建另一个表(“2016sort”)时,值在不同的列中混合在一起。
用于此的代码
但是这段代码弄乱了值。SELECT gender1 from 2016sort 给出性别列的混合值以及其他列的值。
谁能帮我弄清楚缺少什么!
hadoop - 无法有效映射 Hive 表中的 HBase 行键
我有一个 HBase 表,其中行键看起来像这样。
我使用以下查询创建了一个 Hive 链接表。
当我查询表格时,我得到以下结果
这对我来说很奇怪。为什么 serde 无法映射 HBase 密钥的全部内容?蜂巢表在第二个“:”之后缺少所有内容
有没有人遇到过类似的问题?
hadoop - 使用 JSON Serde:java.net.URISyntaxException
我是 Hive 的新手,任何人都可以帮助我解决我在尝试创建下表时收到的以下错误:
错误是:
我的数据采用以下形式:
提前致谢。
json - hive 是否允许列名作为“行”?
我知道每个 hive 版本都有一些保留关键字,不能用作列名。
但问题是我的数据来自 json,而我的列名是根据 json 值。
而且我不能修改数据。有没有替代品??
这是一行样本数据和表格。
hive - 如何反序列化 Hive 中的 ProtoBuf 序列化 HBase 列?
我已经使用 ProtoBuf 序列化类并存储在 HBase 列中。我想减少简单聚合的 Map Reduce 作业的数量,所以我需要类似 SQL 的工具来查询数据。如果我使用 Hive,是否可以扩展 HBaseStorageHandler 并为每个表编写我们自己的 Serde?或者任何其他好的解决方案都是可用的。
更新:
我将 HBase 表创建为
创建“蜂巢:用户”,“我”
并从 java api 插入用户数据,
我的扫描结果如下:
当我在 Hive 中查询表时,我看不到任何记录。这是我用来创建表的命令。
当我查询配置单元表时,我没有看到从 hbase 插入的记录。
你能告诉我这里有什么问题吗?
csv - 无法在蜂巢中投列
我使用 serde 将 csv 文件加载到 hive 表中。像往常一样,它将所有列类型创建为字符串。但是当我尝试将列转换为它们各自的数据类型时,它会抛出一个错误,尤其是在将字符串类型转换为数组类型时。
失败:ParseException line 7:13 无法识别原始类型规范中“array”“<”“string”附近的输入
如何将标签列从字符串类型转换为数组类型?