问题标签 [hive-serde]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
924 浏览

database - 将备用时间戳格式插入 Hive

因此,我尝试通过 Hive 上传 csv 文件,但 csv 文件具有时间戳作为格式之一,时间戳的格式为 dd-MMM-YYYY HH:mm:ss.SSSSSSSSS。我在 SerdeProperties 中添加了这个,但我使用的 Serde 是 OpenCSVSerde,它将所有内容解析为字符串,因此我的数据不再是时间戳。我可以使用另一个 SerDe 吗?

0 投票
1 回答
483 浏览

hadoop - Hive Parquet 表评论

我想在 Hive Parquet 表中的每一列上添加评论。我正在尝试添加如下评论:

但是评论没有出现,但是 DDL 被创建并且数据也在加载。请让我知道,如何在 Hive Parquet 表中为每一列添加评论。

0 投票
1 回答
423 浏览

xml - Hive XML Serde:加载 xml 内容时解析错误

我正在尝试使用带有 Hive 的 SerDe 加载以下 XML 内容:

蜂巢表创建如下:

我有两个问题:

  1. 当我指定上面指定的“xmlinput.start”时,它不起作用。我必须手动删除“RootTage”旁边的内容“xmlns:i = ... /service”才能开始解析 xml。
  2. 尽管如此,“EntityCode”属性还有另一个问题。我收到错误消息:

我究竟做错了什么?感谢您对此的建议和意见。

0 投票
0 回答
118 浏览

hive - Hive 无法从 HDP 3.x 中的 HDFS 读取数据

Hiveserver2 无法读取 HDFS 数据。我已经在 HDFS 之上构建了表格。

这些是我试图解决问题的表属性,它们都不能在 HDP 3.x 中完美运行

  1. 尝试了内部和外部表

  2. 存储为 ORC

  3. 777权限递归所有文件夹

  4. 以表的相同所有者身份执行表

  5. 跨国真实(仅限内部表)

  6. 兽人压缩zlib

  7. Msck 修复成功执行。显示分区值和文件夹大小与 prod 中相同

  8. 分区和分桶

CREATE EXTERNAL TABLE `machine_data`(`ids` string,`delta` string,`locatio` string,`time_data` string,`valid` boolean,`measure` string,`val` float ) PARTITIONED BY (`nodename` string) CLUSTERED BY (delta) INTO 53 BUCKETS ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat' ;

我已将数据从服务器 A 移动到服务器 B,将服务器 C 移动到 HDFS,并在 HDFS 数据之上构建了一个表。所有三台服务器都在 HDP 3.1 中。服务器 A 它是生产服务器,从初始设置开始运行良好。将数据分别移动到开发和测试服务器。

服务器 B 是测试服务器,第二天似乎没有任何变化。

服务器 C 是开发服务器三天后根本不工作。

比较 HS2 配置。跨服务器几乎相同

处理这种类型的场景真的很奇怪。

0 投票
1 回答
617 浏览

json - 从 pyspark 脚本中删除 Hive 表的问题

我在配置单元中有一个使用 hive-json-serde 方法从许多 json 文件创建的表,WITH SERDEPROPERTIES ('dots.in.keys' = 'true'),因为其中一些键有一个点,比如 `aaa.bbb` . 我创建外部表并为这些键使用反引号。现在我从 pyspark 脚本中删除此表时遇到问题,使用sqlContext.sql("DROP TABLE IF EXISTS "+table_name),我收到此错误消息:

在 HUE 中,我可以毫无问题地删除此表。我做错了吗,或者可能有更好的方法吗?

0 投票
2 回答
3178 浏览

csv - csv 文件使用加载数据到 hive 表 - 如何格式化 csv 中的日期以由 hive 表接受

我正在使用加载数据语法将 csv 文件加载到表中。该文件与 hive 接受的格式相同。但仍然在发出加载数据后,最后 2 列在选择时返回 null。

Select 返回最后 2 列的 NULL 值

另一个问题是,如果日期格式与 YYYY-MM-DD 不同怎么办。是否可以让 hive 识别格式?(因为现在我正在修改 csv 文件格式以被 hive 接受)

0 投票
0 回答
21 浏览

hive - 无法让 Hive SerDe 工作 - 返回 0 条记录

这是我第二次尝试使用 SerDe。第一个工作安静,但现在,我真的很挣扎。

我得到了这种结构的 XML: XML 结构

这是我创建的 Hive 表

表已成功创建,但是,当我尝试 select * from raw_abc.text_abc 时,我没有得到任何记录作为回报。知道这里有什么问题吗?我花了最后 2 天试图弄清楚它没有运气。

谢谢,G

0 投票
1 回答
115 浏览

amazon-web-services - 使用 AWS GLUE 从 S3 将引用的数据上传到 Redshift 时出现问题。如何插入数据?

我正在尝试在 Redshift 中插入一个数据集,其值为:

我在 S3 数据上运行的爬虫无法识别值的列或数据类型。我一直在调整表设置以完成将数据推送到 Redshift 的工作,但无济于事。这是我迄今为止尝试过的:

  1. 在 Glue Catalog 的表定义中手动添加列。上面提到的只有 1 列。
  2. 将 Serde 序列化库从 LazySimpleSerde 更改为 org.apache.hadoop.hive.serde2.lazy.OpenCSVSerDe
  3. 添加了以下 Serde 参数 - quoteChar ", line.delim \n, field.delim \n
  4. 我已经尝试过 line.delim 和 field.delim 属性的不同组合。包括一个,省略另一个,同时服用两者。
  5. 将分类从 UNKONWN 更改为表格属性中的文本。
  6. 将 recordCount 属性更改为 469 以匹配原始数据行数。

作业运行总是成功的。作业运行后,当我从 table_name 中选择 * 时,我总是根据原始数据在 redshift 表中获得正确的行数,但所有行都是 NULL。如何填充 Redshift 中的行?

表格属性已上传到此处的相册中:Imgur 相册

0 投票
1 回答
114 浏览

hive - 如何使用serde通过hive解析xml数据?

我有一个 .xml 文件,其中包含以下数据:

我正在尝试通过使用 serde 在 hdfs 上的 xml 文件顶部创建外部表来通过 hive 解析 xml。请在下面找到我的代码

我首先添加了罐子

我得到的错误是

执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1。org/apache/hadoop/hive/serde2/SerDe(状态=08S01,代码=1)

我不知道如何解决这个错误..请帮忙!!

0 投票
1 回答
58 浏览

hive - 如何正确设置 SerDe XML 架构?

我有这个 XML:

我希望最终结果如下所示:

我怎么做?