问题标签 [apache-hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
343 浏览

hadoop - 使用 serde 在 Hive-0.14 中分析简单的 JSON 文件

我正在尝试使用 jsonserde 对 json 文件执行配置单元命令,但我总是得到空值,而不是实际数据。我使用了“code.google.com/p/hive-json-serde/downloads/list”链接中提供的 serde。我尝试了多种方法,但所有尝试都没有成功。请有人可以帮助我了解要遵循的确切步骤和要使用的 serde,以便在 apache hive 最新版本(0.14)中处理 json 文件

BR,圣

0 投票
1 回答
144 浏览

hive - Save hive table after performing simple HQL on different hive cluster without export+distcp+import

I have a table A in cluster X.

I want to perform some HQL (say select * from A where A.country = 'INDIA') & save output in table B in cluster Y.

I can perform HQL on table A & store data in table temp. Then, export this hive table to table B in cluster Y using:

Is there any other better way rather than creating this table temp?

0 投票
1 回答
3018 浏览

hive - 如何更改 Hive 表中列名的长度?

我有一个配置单元表,其中列名比平时长。我提到了表定义的配置单元元存储。这是它的外观:

输出:

我可以看到 column_name 定义为 128 字节的 varchar2。是否有可以更改此值的配置单元元存储设置?

更新: 请参考这个问题已经清楚解释的票。 https://issues.apache.org/jira/browse/HIVE-9815

这个想法是改变数据库本身上的 MAX_STRING_SIZE 设置为 EXTENDED。但这会弄乱数据库上的许多其他内容。

对此有任何解决方法吗?

0 投票
0 回答
68 浏览

java - 使用 Java API 在 HIVE 中进行 DML

我正在编写一个在 Hive 表中执行 DDL 和 DML 的应用程序。对于 DDL,使用org.apache.hadoop.hive.ql.metadata.Hive自 1.0 版以来公开的 Hive-Class。它非常适合 DDL,我认为比 JDBC 和其他选项更快。

但我不知道如何在 JAVA(分区和未分区表)中执行 DML。不幸的是,这个 Java-API 记录得很糟糕,我找不到任何示例代码。如何在不使用 JDBC 等 API 的情况下进行 DML?

0 投票
0 回答
232 浏览

hadoop - hive-site.xml 不会覆盖默认属性

我试图通过设置它们来覆盖配置单元默认属性,hive-site.xml但它没有任何效果。可能有助于调试问题的几件事:

  1. 环境变量:

    HIVE_CONF_DIR=$HIVE_HOME/conf HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/conf:$HIVE_HOME/lib HIVE_AUX_JARS_PATH=$HIVE_HOME/lib

  2. 权限:我已经777授予了整个 hive 目录的权限(我知道它应该是733并且我不应该这样做,777但为了测试我这样做了)

  3. 有效的 XML:我认为它可能是无效的 xml,但 xsl 定义和标签是完整且有效的。xml没有问题。

  4. hive-env.sh正在阅读,但不能说hive-site.xml

如果需要任何其他详细信息,请发表评论。

0 投票
2 回答
621 浏览

perl - Why do I get the error "Thrift::TException=HASH(0x122b9e0)" when I try to execute a statement with Thrift::API::HiveClient?

I am trying to connect to Apache Hive from a Perl script but I'm getting the following error:

#xA;

I am running with Hadoop version 2.7.0, Hive version 1.1.0, and Thrift::API::HiveClient version 0.003. Here is the script I am using:

#xA;

Could this be caused by a version issue or is it something else?


I also tried running the following script, which comes with the Thrift-API-HiveClient-0.003 distribution:

#xA;

I get the following output:

#xA;

After enabling NOSASL authentication on my HiveServer2 by modifying the hive-site.xml, I am now getting a different error:

#xA;

It worked using Thrift::API::HiveClient2

#xA;
0 投票
1 回答
158 浏览

hadoop - 管理报告,当我们的数据库是 Cassandra ...Spark 或 Solr...或 BOTH?

我的数据库是Cassandra(datastax 企业 => linux)。由于它不支持分组、聚合等进行报告,根据其基本原理,使用 Cassandra 并不是一个好的决定,彻头彻尾。我用谷歌搜索了这个赤字,发现了一些结果,这个这个,还有这个

但是我真的很迷茫!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark ......它对分析很有用,但是,我不明白它最终是否使用 Hadoop。

我会有很多报告,至少需要索引和分组。但我不想使用会增加开销的额外表。而且,我是 .Net(而不是 Java)开发人员,我的应用程序也是基于.Net Framework的。

0 投票
2 回答
572 浏览

apache-hive - 如何使用 LOAD DATA LOCAL INPATH 加载 Bucketed HIVE 表

LOAD DATA LOCAL INPATH ...我们可以使用命令加载 Bucketed HIVE 表吗?我已经为一个示例文件执行了它,但是数据值被插入为 NULL。

但是当使用插入命令插入时,数据成功插入。

问题是不能从文件中加载 HIVE 分桶表吗?

0 投票
1 回答
83 浏览

hadoop - 在蜂巢中加入一张桌子两次

我不知道如何在 Hive 中实现它。请建议方法。

假设我有这样的蜂巢表

现在从这些表中,如果 table2 中存在 table1 的主要值(例如 A)和次要值(例如:B),并且如果至少存在一个值大于零的组织(这里有肾脏),那么我有打印以下内容(示例输出)。

谁能帮助我如何在 Hive 中编写查询。

提前致谢。

0 投票
0 回答
441 浏览

apache-spark - Hive 的 GenericUDF 在 Spark 上执行两次

您好,我在创建 hive 的 genericUDF 并注册为临时函数时遇到了一些问题,但是当我调用它时,它的调用两次,请参见下面给出的代码

我用以下代码创建了一个通用UDF

当我用以下语句注册它时

当我使用以下命令调用此函数时

它将在评估正文中执行打印语句两次。