问题标签 [spark-hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
312 浏览

scala - 保存ORC数据时外部表为空

我想将 ORC 数据从 Spark 数据帧写入外部 Hive 表。当我将数据框另存为表时,数据会发送到现有的外部表,但是,当我尝试将 ORC 格式的数据保存到目录中,然后从外部表中读取此数据时,它不会显示。

第二种情况下数据缺失的原因可能是什么?

这个怎么运作:

返回空外部表的代码:

0 投票
0 回答
26 浏览

apache-spark-sql - Spark 单机版 v 2.3.2 测试失败

我已经使用采用 jdk 1.8 在大端平台上构建了 spark v 2.3.2 构建成功,我们在以下模块中遇到测试用例失败。我想要一些与这个失败的测试相关的信息,关于这个失败对火花功能的影响有多严重的信息

测试模块严重性(1. 必须修复,2. 不必须修复)

不安全

星火项目 SQL

星火项目蜂巢

Spark 项目复制

如果您可以通过将上面显示的严重性数字与相应的失败测试模块相关联来解决我们的问题,我们将很高兴

0 投票
0 回答
238 浏览

apache-spark - 使用 Spark 作为执行引擎时如何禁用 Hive shell 上的日志?

我想将配置单元查询的结果保存在文件中。但是 hive 的输出也有很多日志。有什么办法可以禁用它们。我只想捕获查询的结果。

0 投票
1 回答
1880 浏览

amazon-dynamodb - 通过在 EMR 上运行的 PySpark 中的 Glue 数据目录访问 DynamoDB 时,绝对 URI 异常中的相对路径

我正在 AWS EMR 上执行一个 pyspark 应用程序,该应用程序配置为使用 AWS Glue 数据目录作为元存储。我在 AWS Glue 中有一个指向 DynamoDB 表的表设置。现在在我的 pyspark 脚本中,我正在尝试访问 Glue 表。我能够做到show tables并且能够看到胶水表。但是当我尝试查询表格时,我遇到了异常,

pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: arn:aws:dynamodb:<region>:<acct_id>:table/DDBTABLE;'

我在 pyspark 脚本中的查询:

spark.sql("select * from ddbtable").show()

在这方面找不到任何好的参考。我看到人们谈论spark.sql.warehouse.dir. 但不确定它与粘合数据目录有何关系。任何输入?

0 投票
0 回答
3382 浏览

sql - 如何在pyspark中读取sql文件?

我一直在尝试运行此代码,期望它从包含表架构和使用 pyspark 的值的 sql 文件创建一个表。似乎无法理解错误。请帮我。

--------------------SQL 文件------------------------

--

-- 为表转储数据user_details


提前致谢

这就是我一直在尝试做的

但我有一个错误

0 投票
1 回答
256 浏览

hive - sparkpy 坚持 HDFS 上的 root scratch dir: /tmp/hive 应该是可写的

我正在尝试运行一个访问配置单元服务器的 pyspark 程序。程序通过抛出错误终止

pyspark.sql.utils.AnalysisException: 'java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwxrwxr-x;

现在,HDFS 上的根暂存目录:/tmp/hive 应该是可写的。当前权限是:-wx------建议我应该 chmod 777。我做到了。

drwxrwxrwx - hadoopuser supergroup 0 2019-07-03 06:39 /tmp/hive

但是,pyspark 仍然会抛出相同的错误。

因此,我决定将临时目录文件夹更改为 /tmp/sparkpy。我在 hive-site.xml 注册了此更改

我重新启动了 hiveserver2,Beeline 确认更改已注册。

但是,pyspark 仍然停留在 /tmp/hive 并坚持认为它不可写。

0 投票
1 回答
1787 浏览

apache-spark - Spark SQL - 确定架构时出现运行时异常

我正在尝试从我的笔记本电脑查询远程(本地)配置单元数据库中的表。我正在使用火花 sql。我能够连接到它并检索最新的分区。

但是,当我尝试检索列(比如说 pid)时,它会抛出以下错误:

我尝试使用 describe table 命令并尝试打印架构

打印的架构似乎已关闭,并且未列出任何字段。而是打印出描述字段的标题

我期待这样的事情

当我使用显式字段查询时,代码最终会失败

以下是我用来创建 SparkSession 和查询表的代码

我在 etc/hive/conf 下的 hive-site.xml 中查找了 hivemeta.uris,但它没有此信息。

如何解决架构错误并查询表。?

0 投票
1 回答
152 浏览

python - 无法使用 pyspark 运行简单的 hql 文件

我正在使用 pyspark==2.4.3,我只想运行一个 hql 文件

这就是我尝试过的

但我明白了

我究竟做错了什么 ?

0 投票
1 回答
171 浏览

apache-spark - Spark Structured Streaming 使用 spark-acid writeStream(带检查点)抛出 org.apache.hadoop.fs.FileAlreadyExistsException

在我们的 Spark 应用程序中,我们使用Spark structured streaming. 它使用Kafka as input stream, &HiveAcid as writeStream到 Hive 表。对于,它是从以下HiveAcid位置调用的开源库:https ://github.com/qubole/spark-acidspark acidqubole

下面是我们的代码:

我们能够将应用程序部署到生产环境,并重新部署了几次(~ 10 次)而没有问题。然后它遇到了以下错误:

查询 hiveSink [id = 080a9f25-23d2-4ec8-a8c0-1634398d6d29, runId = 990d3bba-0f7f-4bae-9f41-b43db6d1aeb3] 异常终止:作业因阶段失败而中止:阶段 0.0 中的任务 3 失败 4 次,最近一次失败:在 0.0 阶段丢失任务 3.3(TID 42、10.236.7.228、执行程序 3):org.apache.hadoop.fs.FileAlreadyExistsException:/warehouse/tablespace/managed/hive/events/year=2020/month=5/day=客户端 10.236.7.228 的 18/delta_0020079_0020079/bucket_00003 已经存在 (...) 在 com.qubole.shaded.orc.impl.PhysicalFsWriter.(PhysicalFsWriter.java:95) 在 com.qubole.shaded.orc.impl.WriterImpl。 (WriterImpl.java:177) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.WriterImpl.(WriterImpl.java:94) 在 com.qubole.shaded.hadoop.hive.ql.io.orc。 OrcFile.createWriter(OrcFile.java:334) 在 com.qubole.shaded.hadoop.hive.ql.io.orc。OrcRecordUpdater.initWriter(OrcRecordUpdater.java:602) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.OrcRecordUpdater.addSimpleEvent(OrcRecordUpdater.java:423) 在 com.qubole.shaded.hadoop.hive.ql。 io.orc.OrcRecordUpdater.addSplitUpdateEvent(OrcRecordUpdater.java:432) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.OrcRecordUpdater.insert(OrcRecordUpdater.java:484) 在 com.qubole.spark.hiveacid。 writer.hive.HiveAcidFullAcidWriter.process(HiveAcidWriter.scala:295) 在 com.qubole.spark.hiveacid.writer.TableWriter$$anon$1$$anonfun$6.apply(TableWriter.scala:153) 在 com.qubole.spark。 hiveacid.writer.TableWriter$$anon$1$$anonfun$6.apply(TableWriter.scala:153) (...) at com.qubole.spark.hiveacid.writer.TableWriter$$anon$1.apply(TableWriter.scala: 153)在 com.qubole.spark.hiveacid.writer.TableWriter$$anon$1。应用(TableWriter.scala:139)

每次重新启动应用程序时,都会显示不同的delta + bucket files已存在错误。但是,这些文件每次启动时都是新创建的(很可能),但不知道为什么会抛出错误。

任何指针将不胜感激。

0 投票
0 回答
236 浏览

maven - Databricks - 库安装日志

您能否指导我在哪里可以找到Azure Databricks中的库安装日志?我正在尝试从失败的 Maven 安装 spark-sql_2.11 包,并且没有关于失败原因的详细信息。如果有人可以帮助确定问题,那就太好了。

安装步骤:

我面临与 spark-hive_2.11(2.4.5 版本)相同的问题,但从 maven 安装 avro-tools 的工作正常。不知道我错过了什么。

感谢所有的帮助。