问题标签 [hivecontext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
461 浏览

pyspark - 使用 pyspark 配置单元上下文连接两个表

使用 pyspark hive context 加入两个 hive 表时,我看到以下错误。

错误:

""") 文件 "/usr/hdp/2.3.4.7-4/spark/python/lib/pyspark.zip/pyspark/sql/context.py",第 552 行,在 sql 文件 "/usr/hdp/2.3. 4.7-4/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py”,第 538 行,调用 文件“/usr/hdp/2.3.4.7-4/spark/python/lib /pyspark.zip/pyspark/sql/utils.py”,第 36 行,在装饰文件“/usr/hdp/2.3.4.7-4/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/ protocol.py”,第 300 行,在 get_return_value py4j.protocol.Py4JJavaError:调用 o41.sql 时发生错误。:org.apache.spark.SparkException:作业取消,因为 SparkContext 已关闭 EX:

还有如何参数化 day ?

0 投票
2 回答
652 浏览

hadoop - 如何从 JavaSparkContext 获取 HiveContext

在一些 Spark 代码中,我看到程序员使用这样的代码来创建 SparkContext

但我一直使用这种代码来创建 JavaSparkContext。

从代码的后半部分,有什么方法可以让我获得 Hive 上下文来对 Hive 表执行操作?

谢谢!

0 投票
1 回答
1050 浏览

java - Spark protobuf 消息处理错误“java.lang.RuntimeException: Unable to find proto buffer class”

在 java spark 中处理 protobuf bytearray 消息时出现以下错误。

ThrowableSerializationWrapper:无法反序列化任务异常 java.lang.RuntimeException:找不到原型缓冲区类

ParseRaw 消息:

ProtoBuf注册器:

堆栈跟踪:

Spark 提交日志:

打印类路径:

0 投票
1 回答
1278 浏览

hadoop - 通过 Spark 作业创建 Hive 表

我正在尝试在 hadoop 集群(BigInsight 4.1 发行版)上创建 hive 表作为我的 spark(1.5.1 版本)作业的输出,并且面临权限问题。我的猜测是 spark 使用默认用户(在本例中为“yarn”而不是作业提交者的用户名)来创建表,因此无法这样做。

我尝试自定义 hive-site.xml 文件以设置一个经过身份验证的用户,该用户有权创建 hive 表,但这不起作用。

我还尝试将 Hadoop 用户变量设置为经过身份验证的用户,但它也不起作用。

我想避免保存 txt 文件,然后创建配置单元表以优化性能并通过 orc 压缩减小输出的大小。

我的问题是:

  • 有没有办法用指定的用户调用 spark dataframe api 的 write 函数?
  • 是否可以使用 oozie 的工作流文件选择用户名?
  • 有没有人有其他想法或曾经遇到过这个问题?

谢谢。哈塔克!

0 投票
3 回答
5267 浏览

hadoop - 无法使用 Spark 从 HiveContext 获取现有 Hive 表

我正在尝试使用 HiveContext 从 spark 获取 Hive 的数据库或表详细信息。但我无法指向现有的 Hive 数据库,如下所示: Spark 版本:2.2.0 Hive 版本:2.3.0

在 Spark Shell 中使用以下脚本连接到现有的 Hive 服务器(下面使用的 127.0.0.1 是我的机器 IP 地址):

如上所示,我无法获得可用的现有 Hive 数据库和表。HiveContext 指向新数据库(默认)并且没有可用的表。下面是我列出的配置单元数据库:

下面是我的 hive-site.xml:

下面是我的 spark conf 目录:

我是否需要修改任何东西以指向现有的 Hive 服务器而不是创建新的。请帮助我。

0 投票
2 回答
6900 浏览

json - 如何为结构数组创建 Spark SQL 架构?

如何为以下 json 创建模式以读取模式。我正在使用 hiveContext.read.schema().json("input.json"),我想忽略前两个“ErrorMessage”和“IsError”只读报告。下面是 JSON:

我创建了以下架构:

0 投票
1 回答
92 浏览

apache-spark - 对 1 个数据帧使用 hivecontext 对另一个数据帧使用 sqlcontext 时比较 Spark 中的 2 个数据帧

当我使用 HiveContext 将 hive 表存储在一个数据帧中,而使用 sqlcontext 将 DB2 表存储在另一个数据帧中时,在查询这两个数据帧时,它在检测到 hive 时没有检测到 Db2。可以使用的常用sqlcontext是什么?

0 投票
1 回答
820 浏览

hadoop - 无法通过更改 hive-site.xml 以连接 spark-HiveContext 来运行 hive

下面是我的 hive/conf/hive-site.xml:

我想使用 spark-HiveContext 访问 Hive 现有数据库和表。因此在 hive/conf/hive-site.xml 中添加以下行:

如上所示编辑 hive-site.xml 后,hive shell 不起作用。请帮助我正确更新 hive-site.xml 并帮助我使用 HiveContext 访问 spark-shell 上的配置单元表,如下所示:

请在这个问题上帮助我。

0 投票
1 回答
398 浏览

apache-spark - 无法使用 HiveContext 将数据附加到现有配置单元表中

我们正在使用 a从hive表中读取数据。在对数据进行一些聚合之后,我们将这些数据存储到另一个表(已经有数据)中。但是新数据没有附加到现有表中......也没有显示任何错误......hiveContextspark dataframe

注意:在存储之前,hive我可以打印dataframe.

0 投票
2 回答
1209 浏览

scala - HiveContext.sql("插入")

我正在尝试使用HiveContext插入数据,如下所示:

错误并尝试使用“选择”:

它需要像这样的所有列:

有没有办法插入指定的列?例如,仅插入列“host_id”和“data”。