问题标签 [apache-spark-1.6]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
620 浏览

scala - 从包含 Spark 中的字符串数组的 RDD 创建 SQLContext 数据集

所以我有一个变量dataRDD[Array[String]]. 我想迭代它并比较相邻的元素。为此,我必须从 RDD 创建一个数据集。

我尝试以下,sc是我的SparkContext

我得到以下两个错误:

错误:(12, 34) 无法找到存储在数据集中的类型的编码器。通过导入 sqlContext.implicits 支持原始类型(Int、String 等)和产品类型(案例类)。未来版本中将添加对序列化其他类型的支持。val 行 = sqc.createDataset(data)

错误:(12, 34) 方法 createDataset 的参数不足: (隐式证据 $4: org.apache.spark.sql.Encoder[Array[String]])org.apache.spark.sql.Dataset[Array[String]] . 未指定值参数evidence$4。val 行 = sqc.createDataset(data)

当然,我知道我需要传递一个编码器参数,但是,在这种情况下会是什么以及如何导入编码器?当我尝试自己时,它说这createDataset不会作为论据。

有类似的问题,但他们没有回答如何使用编码器参数。如果我的 RDD 是 aRDD[String]它工作得很好,但是在这种情况下它是RDD[Array[String]].

0 投票
2 回答
545 浏览

hadoop - 访问 Spark thrift 服务器时出错

火花版本:1.6.3

我将 Spark thrift 服务器作为代理运行。但它没有像我预期的那样运行。它总是在负载高时停止。

这是我访问时的错误。

我看到错误是java.lang.OutOfMemoryError: Java heap space

但我不知道我需要增加什么内存:

  • 运行 SPARK 的服务器内存
  • 使用 SPARK 配置执行器的内存
  • 其他内存配置...

更新:我的 SPARK 配置

我的 SPARK 配置

0 投票
2 回答
1414 浏览

excel - 在 Spark 1.X 中将 Excel 文件转换为 csv

是否有使用 Spark 1.X 将 Excel 文件转换为 csv 的工具?执行此教程时遇到此问题 https://github.com/ZuInnoTe/hadoopoffice/wiki/Read-Excel-document-using-Spark-1.x

0 投票
1 回答
988 浏览

scala - Spark 1.6流式消费者阅读卡夫卡偏移量卡在createDirectStream

我正在尝试将火花流偏移量读入我的消费者,但我似乎无法正确执行。

这是我的代码。

这是显示数据框的输出

任何帮助是极大的赞赏。

我正在使用 spark 1.6、Scala 2.10.5、kafka 10

0 投票
1 回答
415 浏览

apache-spark - 在 PySpark 中的 Graphframes 上运行 PageRank 和 BFS 函数时出错

我是 Spark 的新手,正在 Cloudera Distr for Hadoop (CDH) 上学习它。我正在尝试通过 Jupyter Notebook 执行 PageRank 和 BFS 功能,该功能是使用以下命令启动的:

以下是我尝试运行的 PageRank 函数命令,以及错误消息:

输出:

我正在尝试的 BFS 函数收到相同的错误消息:

输出:

你能告诉我这个问题吗?

谢谢,萨西。

0 投票
2 回答
5845 浏览

scala - 从行中读取列时出现 NullPointerException

以下用于从 Row 读取值的 Scala (Spark 1.6) 代码NullPointerException在值为 null 时失败并显示 a。

虽然这很好用

是什么原因造成NullPointerException的,处理此类情况的推荐方法是什么?

PS:从DataFrame中获取行如下:

functionWithRows上面已经提到了NullPointerException

MyDF 架构:

0 投票
0 回答
184 浏览

scala - Apache Toree 0.1.x - NoSuchMethodError: org.apache.spark.repl.SparkIMain.classServerUri()

我在 CDH 5.12 上使用 Spark 1.6 为我的 Jupyter notebook 创建了一个 Scala 内核。我正在使用 Apache Toree 0.1.x。我已经安装了 python 包 toree 0.1.0 ( https://pypi.python.org/pypi/toree/0.1.0 )。

内核是使用以下命令安装的。

但是,当我使用内核创建一个新笔记本时,我收到以下错误。

在 TOREE-358 ( https://issues.apache.org/jira/browse/TOREE-358 )下报告相同的错误

0 投票
1 回答
900 浏览

hadoop - 由于使用用户名 mapr 创建的一些暂存部分文件,Spark 数据帧插入配置单元表失败

我正在使用 Spark 数据框插入配置单元表。即使应用程序是使用用户名“myuser”提交的,一些 hive staging 部分文件也是使用用户名“mapr”创建的。因此,在重命名暂存文件说访问被拒绝时,对配置单元表的最终写入失败。命令:

resultDf.write.mode("append").insertInto(insTable)

错误:

线程“主”org.apache.hadoop.security.AccessControlException 中的异常:用户 myuser(用户 id 2547)确实已被拒绝访问重命名 /ded /data/db/da_mydb.db/managed/da_primary/.hive-staging_hive_2017- 12-27_13-25-22_586_3120774356819313410-1/-ext-10000/_temporary/0/task_201712271325_0080_m_000000/part-00000 至 /ded /data/db/da_mydb.db/managed/da_mydb.db/managed/da_mydb.db/managed/da_mydb.db/managed/da_mydb.db/managed/da_120-staging-227_1-320 -22_586_3120774356819313410-1/-ext-10000/part-00000 at com.mapr.fs.MapRFileSystem.rename(MapRFileSystem.java:1112) at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.mergePaths(FileOutputCommitter.java :461) 在 org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter 的 org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.mergePaths(FileOutputCommitter.java:475)。commitJobInternal(FileOutputCommitter.java:392) at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.commitJob(FileOutputCommitter.java:364) at org.apache.hadoop.mapred.FileOutputCommitter.commitJob(FileOutputCommitter.java:136)在 org.apache.spark.sql.hive.SparkHiveWriterContainer.commitJob(hiveWriterContainers.scala:108) 在 org.apache.spark.sql.hive.execution.InsertIntoHiveTable.saveAsHiveFile(InsertIntoHiveTable.scala:85) 在 org.apache.spark .sql.hive.execution.InsertIntoHiveTable.sideEffectResult$lzycompute(InsertIntoHiveTable.scala:201) 在 org.apache.spark.sql.hive.execution.InsertIntoHiveTable.sideEffectResult(InsertIntoHiveTable.scala:127) 在 org.apache.spark.sql org.apache 上的 .hive.execution.InsertIntoHiveTable.doExecute(InsertIntoHiveTable.scala:27​​6)。spark.sql.execution.SparkPlan$$anonfun$execute$5.apply(SparkPlan.scala:132) at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$5.apply(SparkPlan.scala:130) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150) 在 org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:130) 在 org.apache.spark.sql.execution .QueryExecution.toRdd$lzycompute(QueryExecution.scala:55) at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:55) at org.apache.spark.sql.DataFrameWriter.insertInto(DataFrameWriter.scala :189) at org.apache.spark.sql.DataFrameWriter.insertInto(DataFrameWriter.scala:166) at com.iri.suppChain.RunKeying$.execXForm(RunKeying.scala:74) at com.iri.suppChain.RunKeying$$ anonfun$1.apply(RunKeying.scala:36) at com.iri.suppChain.RunKeying$$anonfun$1.apply(RunKeying.scala:36) at scala.collection.immutable.List.foreach(List.scala:318) at com.iri.suppChain.RunKeying $delayedInit$body.apply(RunKeying.scala:36) at scala.Function0$class.apply$mcV$sp(Function0.scala:40) at scala.runtime.AbstractFunction0.apply$mcV$sp(AbstractFunction0.scala:12 )

以下是环境详细信息:

  • 火花 1.6.1
  • 分布图
0 投票
1 回答
1840 浏览

scala - udf 没有可用于类型字符串的 TypeTag

我不明白火花的行为。

我创建了一个返回整数的 udf,如下所示

我工作得很好但是如果我将方法测试的返回类型从 Int 更改为 String

我收到以下错误

这是我的嵌入式罐子:

我有点失落......你有什么想法吗?

0 投票
2 回答
364 浏览

spark-dataframe - 使用 hadoop spark1.6 数据框计算中位数,平均值,无法启动数据库“metastore_db”

spark-shell --packages com.databricks:spark-csv_2.11:1.2.0 1. 使用 SQLContext ~~~~~~~~~~~~~~~~~~~~~ 1. 导入 o​​rg.apache。 spark.sql.SQLContext 2. val sqlctx = new SQLContext(sc) 3. 导入 sqlctx._

  1. val df = sqlctx.read.format("com.databricks.spark.csv").option("inferScheme","true").option("delimiter",";").option("header","true ").load("/user/cloudera/data.csv")

  2. df.select(avg($"col1")).show() // 这很好用

  3. sqlctx.sql("select percentile_approx(balance,0.5) as median from port_bank_table").show() or sqlctx.sql("select percentile(balance,0.5) as median from port_bank_table").show() // 两者都不是工作,得到以下错误

    org.apache.spark.sql.AnalysisException:未定义的函数 percentile_approx;第 0 行 pos 0 在 org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry$$anonfun$2.apply(FunctionRegistry.scala:65) 在 org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry$$anonfun$2。申请(FunctionRegistry.scala:65)

  4. 使用 HiveContext ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 所以尝试使用配置单元上下文 scala> import org.apache.spark .sql.hive.HiveContext 导入 o​​rg.apache.spark.sql.hive.HiveContext

scala> val hivectx = new HiveContext(sc) 18/01/09 22:51:06 WARN metastore.ObjectStore: 无法获取数据库默认值,返回 NoSuchObjectException hivectx: org.apache.spark.sql.hive.HiveContext = org.apache .spark.sql.hive.HiveContext@5be91161

scala> 导入 hivectx._ 导入 hivectx._