问题标签 [spark-hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hivecontext - 无法使用 spark-submit 执行 Hive 查询
我无法使用 spark-submit 命令运行配置单元查询。但是,在 spark-shell 中也是如此。我使用 AWS EMR 作为集群。
下面是我用 eclipse scala IDE 编写的代码
pom.xml
火花提交命令
spark-submit --master local[2] --class HiveTest ./word-count-0.1-SNAPSHOT-jar-with-dependencies.jar
错误
apache-spark - 在intellij中将hive连接到spark
我正在尝试从安装在本地计算机上的 Intellij 中的 spark 程序连接到远程配置单元。
我将 hadoop 集群配置文件放在本地机器上,并在 Intellij 运行此 spark 程序的配置中配置了环境变量 HADOOP_CONF_DIR,以便能够检测到此 hadoop 集群,但 intelliJ 不知何故没有读取这些文件,并且 spark 程序默认为本地配置单元元存储实例。
无论如何配置intelliJ以在本地读取hadoop配置文件。非常感谢任何帮助。
spark-hive - Spark程序无法通过eclipse连接到MySql hive上下文
我已经在 mySql 中设置了配置单元元存储,并且可以通过配置单元访问并创建数据库和表。如果我尝试通过 spark-shell 访问 hive 表,则可以通过从 mysql hive metastore 获取正确获取表信息。但如果从 Eclipse 执行,它不会从 Mysql 中获取。
使用 Scala 版本 2.11.8 ( OpenJDK 64-Bit Server VM
, Java 1.8.0_151
) 键入表达式以对其进行评估。键入 :help 以获取更多信息。
但是如果我尝试通过eclipse访问,那么它就不是指向MySql。取而代之的是德比。请在下面的日志和 hive-site.xml 中找到一个想法。
注意: hive-site.xml 在 hive/conf 和 spark/conf 路径中是相同的。
从 Eclipse 执行的 Spark 代码:
火花输出日志:
蜂巢站点.xml:
apache-spark - 如果在 avro 模式中添加了新列,则 Spark sql saveAsTable 创建表追加模式
我正在使用 Spark sql DataSet 将数据写入配置单元。如果架构相同,它可以正常工作,但是如果我更改 avro 架构,在两者之间添加新列,它会显示错误(架构是从架构注册表提供的)
Error running job streaming job 1519289340000 ms.0
org.apache.spark.sql.AnalysisException: The column number of the existing table default.sample(struct<collection_timestamp:bigint,managed_object_id:string,managed_object_type:string,if_admin_status:string,date:string,hour:int,quarter:bigint>) doesn't match the data schema(struct<collection_timestamp:bigint,managed_object_id:string,if_oper_status:string,managed_object_type:string,if_admin_status:string,date:string,hour:int,quarter:bigint>);
if_oper_status
是必须添加新列。请建议。
scala - 如何在火花中读取快速压缩的序列文件
我们有大量的遗留文件以压缩序列文件格式保存在我们的 hadoop 集群中。序列文件是使用 hive ETL 创建的。假设我使用以下 DDL 在配置单元中创建了表:
这是用于加载上述序列表的脚本:
现在我们已将序列文件位置内的数据导出到 S3 以进行存档。现在我正在尝试使用 AWS EMR 中的 spark 处理这些文件。我怎样才能在火花中读取序列文件。我查看了具有如下标头的示例文件,并知道序列文件的格式<K,V>
为<BytesWritable,Text>
我试过这样:
但它会产生这个错误:
然后我尝试了以下方法,但仍然没有运气:
scala - Spark Streaming + Hive
我们正在构建一个应用程序,该应用程序通过 Flume 从源系统获取数据,然后在 Kafka 消息系统的帮助下触发流式处理以进行内存处理,在将数据处理成数据帧后,我们会将数据放入 Hive 表中。流程将如下 Source System -> Flume -> Kafka -> Spark Streaming -> Hive ,是正确的流程还是我们需要审查它?
我们正在采用离散流并将其转换为数据帧以实现 SQL 兼容性功能。现在我们在 hive 中有 14 个表,我们必须根据代码类型加载数据。如果我们看到下面的代码,我们将过滤我们的 Dstream,然后再将其提供给特定的 foreachRDD,对于 14 个过滤器,我们必须为单独的 14 个 foreachRRD 主体过滤 14 次
我们可以在单个 foreachRDD 正文中处理这个问题吗,因为我已经尝试过,但它只过滤了一行。如果有人在此代码中提供帮助以使其在性能和实施方面更好,我是否在做正确的程序。希望你能理解我的查询
hive - Dbeaver 异常:数据源无效
我正在尝试使用 Dbeaver 并通过 Spark Hive 处理数据。由于以下命令有效,因此连接稳定:
但是,一旦我与简单的获取查询不同,我就会得到一个异常。例如运行查询
导致异常:
SQL 错误 [2] [08S01]:org.apache.hive.service.cli.HiveSQLException:处理语句时出错:FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 2 . Vertex failed, vertexName=Map 1, vertexId=vertex_1526294345914_23590_12_00, diagnostics=[Vertex vertex_1526294345914_23590_12_00 [Map 1] killed/failed due to:ROOT_INPUT_INIT_FAILURE, Vertex Input: postings initializer failed, vertex=vertex_1526294345914_23590_12_00 [Map 1], com.amazon.ws. emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:错误请求(服务:Amazon S3;状态代码:400;错误代码:400 错误请求;请求 ID:95BFFF20D13AECDA),S3 扩展请求 ID : fSbzZDf/Xi0b+CL99c5DKi8GYrJ7TQXj5/WWGCiCpGa6JU5SGeoxA4lunoxPCNBJ2MPA3Hxh14M=
有人可以在这里帮助我吗?
scala - Spark hive udf:没有处理 UDAF 分析异常的处理程序
创建了一个项目“spark-udf”并编写了 hive udf,如下所示:
构建它并为它创建 jar。试图在另一个火花程序中使用这个 udf:
但是以下行给了我例外:
例外:
线程“主”org.apache.spark.sql.AnalysisException 中的异常:UDAF 'com.spark.udf.UpperCase' 没有处理程序。改用 sparkSession.udf.register(...) 。第 1 行 pos 7 在 org.apache.spark.sql.catalyst.catalog.SessionCatalog.makeFunctionExpression(SessionCatalog.scala:1105) 在 org.apache.spark.sql.catalyst.catalog.SessionCatalog$$anonfun$org$apache$spark $sql$catalyst$catalog$SessionCatalog$$makeFunctionBuilder$1.apply(SessionCatalog.scala:1085) at org.apache.spark.sql.catalyst.catalog.SessionCatalog$$anonfun$org$apache$spark$sql$catalyst$catalog $SessionCatalog$$makeFunctionBuilder$1.apply(SessionCatalog.scala:1085) at org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry.lookupFunction(FunctionRegistry.scala:115) at org.apache.spark.sql.catalyst.catalog .SessionCatalog。
非常感谢您对此的任何帮助。
cloudera - Cloudera Manager 5.15 或 6.0 的 HiveOnSpark?
Cloudera Manager 似乎不支持 HiveOnSpark。
虽然我注意到有人说 Hive 2.2.0 版确实支持 Spark 2.x。
我们真的可以在 Spark 上使用 Hive 吗?(下方链接)
apache-spark-sql - 无法使用 sparkR 提交读取 Hive 表
这是我的代码:
当我使用 spark-submit sparkRscript.R 提交时,这会出错
错误:a37fe9-9e5c-4569-879d-475944333fb0/_tmp_space.db
错误:预期字符输入执行停止18/09/16 23:33:29 信息 SparkContext:从关闭挂钩调用 stop()
但是当我在 SparkR 交互式 shell 上运行时,它的工作并给出了预期的结果。