问题标签 [hivecontext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - 使用 pyspark 配置单元上下文连接两个表
使用 pyspark hive context 加入两个 hive 表时,我看到以下错误。
错误:
""") 文件 "/usr/hdp/2.3.4.7-4/spark/python/lib/pyspark.zip/pyspark/sql/context.py",第 552 行,在 sql 文件 "/usr/hdp/2.3. 4.7-4/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py”,第 538 行,调用 文件“/usr/hdp/2.3.4.7-4/spark/python/lib /pyspark.zip/pyspark/sql/utils.py”,第 36 行,在装饰文件“/usr/hdp/2.3.4.7-4/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/ protocol.py”,第 300 行,在 get_return_value py4j.protocol.Py4JJavaError:调用 o41.sql 时发生错误。:org.apache.spark.SparkException:作业取消,因为 SparkContext 已关闭 EX:
还有如何参数化 day ?
hadoop - 如何从 JavaSparkContext 获取 HiveContext
在一些 Spark 代码中,我看到程序员使用这样的代码来创建 SparkContext
但我一直使用这种代码来创建 JavaSparkContext。
从代码的后半部分,有什么方法可以让我获得 Hive 上下文来对 Hive 表执行操作?
谢谢!
java - Spark protobuf 消息处理错误“java.lang.RuntimeException: Unable to find proto buffer class”
在 java spark 中处理 protobuf bytearray 消息时出现以下错误。
ThrowableSerializationWrapper:无法反序列化任务异常 java.lang.RuntimeException:找不到原型缓冲区类
ParseRaw 消息:
ProtoBuf注册器:
堆栈跟踪:
Spark 提交日志:
打印类路径:
hadoop - 通过 Spark 作业创建 Hive 表
我正在尝试在 hadoop 集群(BigInsight 4.1 发行版)上创建 hive 表作为我的 spark(1.5.1 版本)作业的输出,并且面临权限问题。我的猜测是 spark 使用默认用户(在本例中为“yarn”而不是作业提交者的用户名)来创建表,因此无法这样做。
我尝试自定义 hive-site.xml 文件以设置一个经过身份验证的用户,该用户有权创建 hive 表,但这不起作用。
我还尝试将 Hadoop 用户变量设置为经过身份验证的用户,但它也不起作用。
我想避免保存 txt 文件,然后创建配置单元表以优化性能并通过 orc 压缩减小输出的大小。
我的问题是:
- 有没有办法用指定的用户调用 spark dataframe api 的 write 函数?
- 是否可以使用 oozie 的工作流文件选择用户名?
- 有没有人有其他想法或曾经遇到过这个问题?
谢谢。哈塔克!
hadoop - 无法使用 Spark 从 HiveContext 获取现有 Hive 表
我正在尝试使用 HiveContext 从 spark 获取 Hive 的数据库或表详细信息。但我无法指向现有的 Hive 数据库,如下所示: Spark 版本:2.2.0 Hive 版本:2.3.0
在 Spark Shell 中使用以下脚本连接到现有的 Hive 服务器(下面使用的 127.0.0.1 是我的机器 IP 地址):
如上所示,我无法获得可用的现有 Hive 数据库和表。HiveContext 指向新数据库(默认)并且没有可用的表。下面是我列出的配置单元数据库:
下面是我的 hive-site.xml:
下面是我的 spark conf 目录:
我是否需要修改任何东西以指向现有的 Hive 服务器而不是创建新的。请帮助我。
json - 如何为结构数组创建 Spark SQL 架构?
如何为以下 json 创建模式以读取模式。我正在使用 hiveContext.read.schema().json("input.json"),我想忽略前两个“ErrorMessage”和“IsError”只读报告。下面是 JSON:
我创建了以下架构:
apache-spark - 对 1 个数据帧使用 hivecontext 对另一个数据帧使用 sqlcontext 时比较 Spark 中的 2 个数据帧
当我使用 HiveContext 将 hive 表存储在一个数据帧中,而使用 sqlcontext 将 DB2 表存储在另一个数据帧中时,在查询这两个数据帧时,它在检测到 hive 时没有检测到 Db2。可以使用的常用sqlcontext是什么?
hadoop - 无法通过更改 hive-site.xml 以连接 spark-HiveContext 来运行 hive
下面是我的 hive/conf/hive-site.xml:
我想使用 spark-HiveContext 访问 Hive 现有数据库和表。因此在 hive/conf/hive-site.xml 中添加以下行:
如上所示编辑 hive-site.xml 后,hive shell 不起作用。请帮助我正确更新 hive-site.xml 并帮助我使用 HiveContext 访问 spark-shell 上的配置单元表,如下所示:
请在这个问题上帮助我。
apache-spark - 无法使用 HiveContext 将数据附加到现有配置单元表中
我们正在使用 a从hive
表中读取数据。在对数据进行一些聚合之后,我们将这些数据存储到另一个表(已经有数据)中。但是新数据没有附加到现有表中......也没有显示任何错误......hiveContext
spark dataframe
注意:在存储之前,hive
我可以打印dataframe
.
scala - HiveContext.sql("插入")
我正在尝试使用HiveContext插入数据,如下所示:
错误并尝试使用“选择”:
它需要像这样的所有列:
有没有办法插入指定的列?例如,仅插入列“host_id”和“data”。