“apache-spark-1.6”的相关标签问题

0 投票

1 回答

620 浏览

scala - 从包含 Spark 中的字符串数组的 RDD 创建 SQLContext 数据集

所以我有一个变量data是RDD[Array[String]]. 我想迭代它并比较相邻的元素。为此，我必须从 RDD 创建一个数据集。

我尝试以下，sc是我的SparkContext：

我得到以下两个错误：

错误：(12, 34) 无法找到存储在数据集中的类型的编码器。通过导入 sqlContext.implicits 支持原始类型（Int、String 等）和产品类型（案例类）。未来版本中将添加对序列化其他类型的支持。val 行 = sqc.createDataset(data)

错误:(12, 34) 方法 createDataset 的参数不足: (隐式证据 $4: org.apache.spark.sql.Encoder[Array[String]])org.apache.spark.sql.Dataset[Array[String]] . 未指定值参数evidence$4。val 行 = sqc.createDataset(data)

当然，我知道我需要传递一个编码器参数，但是，在这种情况下会是什么以及如何导入编码器？当我尝试自己时，它说这createDataset不会作为论据。

有类似的问题，但他们没有回答如何使用编码器参数。如果我的 RDD 是 aRDD[String]它工作得很好，但是在这种情况下它是RDD[Array[String]].

2017-12-04T08:13:33.623

0 投票

2 回答

545 浏览

hadoop - 访问 Spark thrift 服务器时出错

火花版本：1.6.3

我将 Spark thrift 服务器作为代理运行。但它没有像我预期的那样运行。它总是在负载高时停止。

这是我访问时的错误。

我看到错误是java.lang.OutOfMemoryError: Java heap space

但我不知道我需要增加什么内存：

运行 SPARK 的服务器内存
使用 SPARK 配置执行器的内存
其他内存配置...

更新：我的 SPARK 配置

我的 SPARK 配置

hadoop apache-spark apache-spark-1.6 spark-thriftserver

2017-12-05T02:48:48.810

0 投票

2 回答

1414 浏览

excel - 在 Spark 1.X 中将 Excel 文件转换为 csv

是否有使用 Spark 1.X 将 Excel 文件转换为 csv 的工具？执行此教程时遇到此问题 https://github.com/ZuInnoTe/hadoopoffice/wiki/Read-Excel-document-using-Spark-1.x

excel scala apache-spark apache-spark-1.6 spark-excel

2017-12-13T15:41:34.917

0 投票

1 回答

988 浏览

scala - Spark 1.6流式消费者阅读卡夫卡偏移量卡在createDirectStream

我正在尝试将火花流偏移量读入我的消费者，但我似乎无法正确执行。

这是我的代码。

这是显示数据框的输出

任何帮助是极大的赞赏。

我正在使用 spark 1.6、Scala 2.10.5、kafka 10

scala apache-kafka spark-streaming apache-spark-1.6

2017-12-14T20:23:17.693

0 投票

1 回答

415 浏览

apache-spark - 在 PySpark 中的 Graphframes 上运行 PageRank 和 BFS 函数时出错

我是 Spark 的新手，正在 Cloudera Distr for Hadoop (CDH) 上学习它。我正在尝试通过 Jupyter Notebook 执行 PageRank 和 BFS 功能，该功能是使用以下命令启动的：

以下是我尝试运行的 PageRank 函数命令，以及错误消息：

输出：

我正在尝试的 BFS 函数收到相同的错误消息：

输出：

你能告诉我这个问题吗？

谢谢，萨西。

apache-spark pyspark cloudera-cdh apache-spark-1.6 graphframes

2017-12-17T09:04:23.490

0 投票

2 回答

5845 浏览

scala - 从行中读取列时出现 NullPointerException

以下用于从 Row 读取值的 Scala (Spark 1.6) 代码NullPointerException在值为 null 时失败并显示 a。

虽然这很好用

是什么原因造成NullPointerException的，处理此类情况的推荐方法是什么？

PS：从DataFrame中获取行如下：

functionWithRows上面已经提到了NullPointerException。

MyDF 架构：

scala apache-spark spark-dataframe apache-spark-1.6

2017-12-19T08:14:36.780

0 投票

0 回答

184 浏览

scala - Apache Toree 0.1.x - NoSuchMethodError: org.apache.spark.repl.SparkIMain.classServerUri()

我在 CDH 5.12 上使用 Spark 1.6 为我的 Jupyter notebook 创建了一个 Scala 内核。我正在使用 Apache Toree 0.1.x。我已经安装了 python 包 toree 0.1.0 ( https://pypi.python.org/pypi/toree/0.1.0 )。

内核是使用以下命令安装的。

但是，当我使用内核创建一个新笔记本时，我收到以下错误。

在 TOREE-358 ( https://issues.apache.org/jira/browse/TOREE-358 )下报告相同的错误

scala jupyter-notebook cloudera-cdh apache-spark-1.6 apache-toree

2017-12-20T06:56:04.327

0 投票

1 回答

900 浏览

hadoop - 由于使用用户名 mapr 创建的一些暂存部分文件，Spark 数据帧插入配置单元表失败

我正在使用 Spark 数据框插入配置单元表。即使应用程序是使用用户名“myuser”提交的，一些 hive staging 部分文件也是使用用户名“mapr”创建的。因此，在重命名暂存文件说访问被拒绝时，对配置单元表的最终写入失败。命令：

resultDf.write.mode("append").insertInto(insTable)

错误：

线程“主”org.apache.hadoop.security.AccessControlException 中的异常：用户 myuser（用户 id 2547）确实已被拒绝访问重命名 /ded /data/db/da_mydb.db/managed/da_primary/.hive-staging_hive_2017- 12-27_13-25-22_586_3120774356819313410-1/-ext-10000/_temporary/0/task_201712271325_0080_m_000000/part-00000 至 /ded /data/db/da_mydb.db/managed/da_mydb.db/managed/da_mydb.db/managed/da_mydb.db/managed/da_mydb.db/managed/da_120-staging-227_1-320 -22_586_3120774356819313410-1/-ext-10000/part-00000 at com.mapr.fs.MapRFileSystem.rename(MapRFileSystem.java:1112) at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.mergePaths(FileOutputCommitter.java :461) 在 org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter 的 org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.mergePaths(FileOutputCommitter.java:475)。commitJobInternal(FileOutputCommitter.java:392) at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.commitJob(FileOutputCommitter.java:364) at org.apache.hadoop.mapred.FileOutputCommitter.commitJob(FileOutputCommitter.java:136)在 org.apache.spark.sql.hive.SparkHiveWriterContainer.commitJob(hiveWriterContainers.scala:108) 在 org.apache.spark.sql.hive.execution.InsertIntoHiveTable.saveAsHiveFile(InsertIntoHiveTable.scala:85) 在 org.apache.spark .sql.hive.execution.InsertIntoHiveTable.sideEffectResult$lzycompute(InsertIntoHiveTable.scala:201) 在 org.apache.spark.sql.hive.execution.InsertIntoHiveTable.sideEffectResult(InsertIntoHiveTable.scala:127) 在 org.apache.spark.sql org.apache 上的 .hive.execution.InsertIntoHiveTable.doExecute(InsertIntoHiveTable.scala:276)。spark.sql.execution.SparkPlan$$anonfun$execute$5.apply(SparkPlan.scala:132) at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$5.apply(SparkPlan.scala:130) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150) 在 org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:130) 在 org.apache.spark.sql.execution .QueryExecution.toRdd$lzycompute(QueryExecution.scala:55) at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:55) at org.apache.spark.sql.DataFrameWriter.insertInto(DataFrameWriter.scala :189) at org.apache.spark.sql.DataFrameWriter.insertInto(DataFrameWriter.scala:166) at com.iri.suppChain.RunKeying$.execXForm(RunKeying.scala:74) at com.iri.suppChain.RunKeying$$ anonfun$1.apply(RunKeying.scala:36) at com.iri.suppChain.RunKeying$$anonfun$1.apply(RunKeying.scala:36) at scala.collection.immutable.List.foreach(List.scala:318) at com.iri.suppChain.RunKeying $delayedInit$body.apply(RunKeying.scala:36) at scala.Function0$class.apply$mcV$sp(Function0.scala:40) at scala.runtime.AbstractFunction0.apply$mcV$sp(AbstractFunction0.scala:12 )

以下是环境详细信息：

火花 1.6.1
分布图

hadoop apache-spark hive mapr apache-spark-1.6

2017-12-29T10:31:47.857

0 投票

1 回答

1840 浏览

scala - udf 没有可用于类型字符串的 TypeTag

我不明白火花的行为。

我创建了一个返回整数的 udf，如下所示

我工作得很好但是如果我将方法测试的返回类型从 Int 更改为 String

我收到以下错误

这是我的嵌入式罐子：

我有点失落......你有什么想法吗？

scala apache-spark apache-spark-1.6

2018-01-09T16:54:13.680

0 投票

2 回答

364 浏览

spark-dataframe - 使用 hadoop spark1.6 数据框计算中位数，平均值，无法启动数据库“metastore_db”

spark-shell --packages com.databricks:spark-csv_2.11:1.2.0 1. 使用 SQLContext ~~~~~~~~~~~~~~~~~~~~~ 1. 导入 org.apache。 spark.sql.SQLContext 2. val sqlctx = new SQLContext(sc) 3. 导入 sqlctx._

val df = sqlctx.read.format("com.databricks.spark.csv").option("inferScheme","true").option("delimiter",";").option("header","true ").load("/user/cloudera/data.csv")
df.select(avg($"col1")).show() // 这很好用
sqlctx.sql("select percentile_approx(balance,0.5) as median from port_bank_table").show() or sqlctx.sql("select percentile(balance,0.5) as median from port_bank_table").show() // 两者都不是工作，得到以下错误

org.apache.spark.sql.AnalysisException：未定义的函数 percentile_approx；第 0 行 pos 0 在 org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry$$anonfun$2.apply(FunctionRegistry.scala:65) 在 org.apache.spark.sql.catalyst.analysis.SimpleFunctionRegistry$$anonfun$2。申请（FunctionRegistry.scala:65）
使用 HiveContext ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 所以尝试使用配置单元上下文 scala> import org.apache.spark .sql.hive.HiveContext 导入 org.apache.spark.sql.hive.HiveContext

scala> val hivectx = new HiveContext(sc) 18/01/09 22:51:06 WARN metastore.ObjectStore: 无法获取数据库默认值，返回 NoSuchObjectException hivectx: org.apache.spark.sql.hive.HiveContext = org.apache .spark.sql.hive.HiveContext@5be91161

scala> 导入 hivectx._ 导入 hivectx._

spark-dataframe hadoop2 median hivecontext apache-spark-1.6

2018-01-10T06:57:53.900

问题标签 [apache-spark-1.6]

Reference