问题标签 [hive-query]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1059 浏览

hadoop - 蜂巢中的选择语句返回一些具有空值的列

我已经多次看到此类问题被问到,但这些解决方案对我不起作用。我创建了一个外部配置单元表,因为我的数据来自仅地图作业输出。然后,通过加载命令,我给出了特定文件的路径。它显示正常。但是当我给出select * from table命令时,它会返回一些带有空值的列。我执行的每个命令都在错误图片中。

我在文件中的分隔符是||,所以我在创建表命令中也提到了相同的内容。

这是我的输入文件 pic文件 pic。这是错误图片 。我也尝试过普通表而不是外部表。这也显示了同样的错误。我还尝试将分隔符称为//||and \|\|。但没有一个奏效。

0 投票
0 回答
633 浏览

hive - Hive 将分区添加到外部表慢

所以我需要为存储在 S3 上的一些数据创建一个外部表并显式添加分区(不幸的是,由于名称不匹配,目录层次结构不适合动态分区功能),例如:

我在具有 Hive 2.3.2 和实例类型 r4.2xarge 的 EMR 集群上运行此程序,该集群具有 8 个 vCore 和 61GB 内存。完成添加一个分区大约需要 4 秒,这还不错,但是如果我们需要处理多天的数据,那么添加分区将需要很长时间。

有没有办法让这个过程更快?谢谢

0 投票
1 回答
2407 浏览

hadoop - 如何使用嵌套数据将分区添加到配置单元表?

我正在将我的日志从 S3 加载到 Hive 中

我的数据看起来像这样

如果我想在 col1.country、col1.page、col1.date 上创建一个分区,我应该如何在创建语句中包含它,我尝试了 colName.fieldName,但没有成功。

0 投票
1 回答
3257 浏览

hadoop - 带有位置的 Hive 外部表

引用此网址:Hive - 外部表创建

使用 location 关键字创建的 Hive 外部表,值指向我的本地磁盘。

但我收到了这个错误。

失败:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1。MetaException(消息:文件:/home/user/data 不是目录或无法创建目录)

但是 /home/user/data 目录存在于我的本地并且有 emp 详细信息。任何想法,为什么它会导致问题

0 投票
1 回答
3325 浏览

regex - 如何在 Hive SQL 中选择具有相同前缀(开始)或后缀(结束)或中间关键字(包括)的列

编辑1:注意,我知道我们中的一些人会质疑为什么不在不同属性中列出不同部分的信息,这样我就有一个关系数据库来查询。实际情况与我在下面列出的示例不同,此处使用变量名是为了方便。

编辑 2:为了减少数据库设计的混乱,我更改了示例中的变量名称。

在 Hive 查询中,我正在寻找一种方法来选择具有相同前缀或相同后缀的列,或者在同一个表的变量名称中间包含相同的关键字。

这是一个示例:我有一个变量列表,如下所示:

练习 1 我想选择所有以 'a' 开头的属性。

练习 2 我想选择所有以 '1' 结尾的属性。

练习 3 我想选择包括 'B' 在内的所有属性。

非常感谢提前!

0 投票
1 回答
1220 浏览

hive - 在从 hive 创建期间使用 location 子句删除内部表时会删除数据吗?

在配置单元中,如果我在表创建语句中使用 loaction 子句(提及配置单元的默认位置以外的位置)创建一个内部表,那么在删除该表时,它将从指定位置删除数据,就像数据默认时一样蜂巢的位置?

0 投票
0 回答
17 浏览

hive-query - Hive complex types

Please help me in making understand the difference between collect_set (named_struct) and array ( named_struct) while inserting data into datatype of array < struct > in a table. Any difference between the 2 options ?

0 投票
1 回答
4082 浏览

hive - 在 Hive HQL 中将字符串转换为时间戳

我有一个像“08/03/2018 02:00:00”这样的字符串,我正在尝试将其转换为时间戳值。

我正在使用以下代码:

当我使用上面的代码时,它会抛出一个 NULL 值。

如何在 Hive/Hue 编辑器中将此字符串转换为时间戳?

0 投票
2 回答
772 浏览

hive - 使用 Hive 中的值计算连续的日期范围

我想知道是否可以计算一组 Id 的特定值的连续范围并返回每个 Id 的计算值。给定以下数据:

我想要以下输出:

在这种情况下,范围是信用小于 1 的连续天数。如果 date_key 列之间存在间隙,则范围不必采用下一个值,例如 ID 1 中介于 8096 和 8098 之间的日期键。是否可以使用 Hive 中的窗口功能来做到这一点?

提前致谢!

0 投票
1 回答
2025 浏览

hadoop - Hive 错误:编译语句:失败:ParseException 行 15:0 在 ''\n'' 附近的 'collection' 处缺少 EOF

我是 hive 新手,我正在创建一个具有以下属性的表,

在上面的代码中,我为产品详细信息创建了一个结构类型数组。我用“|”分隔每个产品详细信息 和 struct element by ':',但不知何故这会导致错误。