0 投票

2 回答

1037 浏览

hivecontext - 无法使用 spark-submit 执行 Hive 查询

我无法使用 spark-submit 命令运行配置单元查询。但是，在 spark-shell 中也是如此。我使用 AWS EMR 作为集群。

下面是我用 eclipse scala IDE 编写的代码

pom.xml

火花提交命令

spark-submit --master local[2] --class HiveTest ./word-count-0.1-SNAPSHOT-jar-with-dependencies.jar

错误

hivecontext spark-hive

2018-02-12T11:07:43.387

0 投票

2 回答

2876 浏览

apache-spark - 在intellij中将hive连接到spark

我正在尝试从安装在本地计算机上的 Intellij 中的 spark 程序连接到远程配置单元。

我将 hadoop 集群配置文件放在本地机器上，并在 Intellij 运行此 spark 程序的配置中配置了环境变量 HADOOP_CONF_DIR，以便能够检测到此 hadoop 集群，但 intelliJ 不知何故没有读取这些文件，并且 spark 程序默认为本地配置单元元存储实例。

无论如何配置intelliJ以在本地读取hadoop配置文件。非常感谢任何帮助。

apache-spark spark-hive

2018-02-14T14:16:04.937

0 投票

0 回答

1052 浏览

spark-hive - Spark程序无法通过eclipse连接到MySql hive上下文

我已经在 mySql 中设置了配置单元元存储，并且可以通过配置单元访问并创建数据库和表。如果我尝试通过 spark-shell 访问 hive 表，则可以通过从 mysql hive metastore 获取正确获取表信息。但如果从 Eclipse 执行，它不会从 Mysql 中获取。

使用 Scala 版本 2.11.8 ( OpenJDK 64-Bit Server VM, Java 1.8.0_151) 键入表达式以对其进行评估。键入 :help 以获取更多信息。

但是如果我尝试通过eclipse访问，那么它就不是指向MySql。取而代之的是德比。请在下面的日志和 hive-site.xml 中找到一个想法。

注意： hive-site.xml 在 hive/conf 和 spark/conf 路径中是相同的。

从 Eclipse 执行的 Spark 代码：

火花输出日志：

蜂巢站点.xml：

spark-hive

2018-02-17T20:21:45.843

0 投票

2 回答

2787 浏览

apache-spark - 如果在 avro 模式中添加了新列，则 Spark sql saveAsTable 创建表追加模式

我正在使用 Spark sql DataSet 将数据写入配置单元。如果架构相同，它可以正常工作，但是如果我更改 avro 架构，在两者之间添加新列，它会显示错误（架构是从架构注册表提供的）

Error running job streaming job 1519289340000 ms.0 org.apache.spark.sql.AnalysisException: The column number of the existing table default.sample(struct<collection_timestamp:bigint,managed_object_id:string,managed_object_type:string,if_admin_status:string,date:string,hour:int,quarter:bigint>) doesn't match the data schema(struct<collection_timestamp:bigint,managed_object_id:string,if_oper_status:string,managed_object_type:string,if_admin_status:string,date:string,hour:int,quarter:bigint>);

if_oper_status是必须添加新列。请建议。

apache-spark spark-avro spark-hive

2018-02-22T09:19:23.260

0 投票

0 回答

2582 浏览

scala - 如何在火花中读取快速压缩的序列文件

我们有大量的遗留文件以压缩序列文件格式保存在我们的 hadoop 集群中。序列文件是使用 hive ETL 创建的。假设我使用以下 DDL 在配置单元中创建了表：

这是用于加载上述序列表的脚本：

现在我们已将序列文件位置内的数据导出到 S3 以进行存档。现在我正在尝试使用 AWS EMR 中的 spark 处理这些文件。我怎样才能在火花中读取序列文件。我查看了具有如下标头的示例文件，并知道序列文件的格式<K,V>为<BytesWritable,Text>

我试过这样：

但它会产生这个错误：

然后我尝试了以下方法，但仍然没有运气：

scala apache-spark sequencefile spark-hive

2018-03-10T03:27:18.400

0 投票

1 回答

2675 浏览

scala - Spark Streaming + Hive

我们正在构建一个应用程序，该应用程序通过 Flume 从源系统获取数据，然后在 Kafka 消息系统的帮助下触发流式处理以进行内存处理，在将数据处理成数据帧后，我们会将数据放入 Hive 表中。流程将如下 Source System -> Flume -> Kafka -> Spark Streaming -> Hive ，是正确的流程还是我们需要审查它？

我们正在采用离散流并将其转换为数据帧以实现 SQL 兼容性功能。现在我们在 hive 中有 14 个表，我们必须根据代码类型加载数据。如果我们看到下面的代码，我们将过滤我们的 Dstream，然后再将其提供给特定的 foreachRDD，对于 14 个过滤器，我们必须为单独的 14 个 foreachRRD 主体过滤 14 次

我们可以在单个 foreachRDD 正文中处理这个问题吗，因为我已经尝试过，但它只过滤了一行。如果有人在此代码中提供帮助以使其在性能和实施方面更好，我是否在做正确的程序。希望你能理解我的查询

scala apache-spark-sql spark-streaming spark-hive

2018-03-31T07:32:25.533

0 投票

1 回答

4545 浏览

hive - Dbeaver 异常：数据源无效

我正在尝试使用 Dbeaver 并通过 Spark Hive 处理数据。由于以下命令有效，因此连接稳定：

但是，一旦我与简单的获取查询不同，我就会得到一个异常。例如运行查询

导致异常：

SQL 错误 [2] [08S01]：org.apache.hive.service.cli.HiveSQLException：处理语句时出错：FAILED：执行错误，从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 2 . Vertex failed, vertexName=Map 1, vertexId=vertex_1526294345914_23590_12_00, diagnostics=[Vertex vertex_1526294345914_23590_12_00 [Map 1] killed/failed due to:ROOT_INPUT_INIT_FAILURE, Vertex Input: postings initializer failed, vertex=vertex_1526294345914_23590_12_00 [Map 1], com.amazon.ws. emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception：错误请求（服务：Amazon S3；状态代码：400；错误代码：400 错误请求；请求 ID：95BFFF20D13AECDA），S3 扩展请求 ID : fSbzZDf/Xi0b+CL99c5DKi8GYrJ7TQXj5/WWGCiCpGa6JU5SGeoxA4lunoxPCNBJ2MPA3Hxh14M=

有人可以在这里帮助我吗？

hive dbeaver spark-hive

2018-06-07T06:55:05.600

0 投票

2 回答

3651 浏览

scala - Spark hive udf：没有处理 UDAF 分析异常的处理程序

创建了一个项目“spark-udf”并编写了 hive udf，如下所示：

构建它并为它创建 jar。试图在另一个火花程序中使用这个 udf：

但是以下行给了我例外：

例外：

线程“主”org.apache.spark.sql.AnalysisException 中的异常：UDAF 'com.spark.udf.UpperCase' 没有处理程序。改用 sparkSession.udf.register(...) 。第 1 行 pos 7 在 org.apache.spark.sql.catalyst.catalog.SessionCatalog.makeFunctionExpression(SessionCatalog.scala:1105) 在 org.apache.spark.sql.catalyst.catalog.SessionCatalog$$anonfun$org$apache$spark $sql$catalyst$catalog$SessionCatalog$$makeFunctionBuilder$1.apply(SessionCatalog.scala:1085) at org.apache.spark.sql.catalyst.catalog.SessionCatalog$$anonfun$org$apache$spark$sql$catalyst$catalog $SessionCatalog$$makeFunctionBuilder$1.apply(SessionCatalog.scala:1085) at org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry.lookupFunction(FunctionRegistry.scala:115) at org.apache.spark.sql.catalyst.catalog .SessionCatalog。

非常感谢您对此的任何帮助。

scala apache-spark hive pyspark spark-hive

2018-09-04T10:45:35.983

0 投票

1 回答

53 浏览

cloudera - Cloudera Manager 5.15 或 6.0 的 HiveOnSpark？

Cloudera Manager 似乎不支持 HiveOnSpark。

https://www.cloudera.com/documentation/spark2/latest/topics/spark2_known_issues.html#ki_hive_on_spark

虽然我注意到有人说 Hive 2.2.0 版确实支持 Spark 2.x。

我们真的可以在 Spark 上使用 Hive 吗？（下方链接）

Spark 2.x 上的 Cloudera Hive？

cloudera cloudera-manager spark-hive

2018-09-10T02:04:25.097

0 投票

0 回答

206 浏览

apache-spark-sql - 无法使用 sparkR 提交读取 Hive 表

这是我的代码：

当我使用 spark-submit sparkRscript.R 提交时，这会出错

错误：a37fe9-9e5c-4569-879d-475944333fb0/_tmp_space.db

错误：预期字符输入执行停止18/09/16 23:33:29 信息 SparkContext：从关闭挂钩调用 stop()

但是当我在 SparkR 交互式 shell 上运行时，它的工作并给出了预期的结果。

apache-spark-sql sparkr spark-hive

2018-09-17T07:05:11.817

问题标签 [spark-hive]

从 Eclipse 执行的 Spark 代码：

火花输出日志：

蜂巢站点.xml：

Reference