问题标签 [apache-spark-1.5]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 运行“./bin/spark-shell”时初始化 SparkContext 时出错
我正在使用spark-1.5.2
with scala-2.11.7
,在成功构建 with 后,sbt/sbt assembly
当我运行时./bin/spark-shell
出现以下错误。
Spark-shell 成功启动SparkContext
但未创建。
有谁知道如何处理 Akka Jar 版本不匹配?
apache-spark - 反序列化时间异常长
我正在对缓存在内存中的 rdd 执行 mapPartitions,然后执行 reduce。这是我的代码片段
rdd 缓存在内存中。我使用 20 个执行器,每个执行器有 1 个核心。缓存的 rdd 有 60 个块。问题是每运行 2-3 次作业,就会有一个反序列化时间异常长的任务。附上截图
这种行为的原因可能是什么?
PS - 1. 在所有情况下我都没有得到这种行为。我做了很多相同的工作,我在大约 40% 的情况下得到了这种行为
运行的 Spark 日志 - http://pastebin.com/jnqTzPXS
scala - 如何在 Spark 1.5 中转置数据帧(没有可用的枢轴运算符)?
我想使用没有 Pivot 函数的 spark scala 转置下表
我使用的是 Spark 1.5.1,而 Pivot 功能在 1.5.1 中不支持。请建议合适的方法来转置下表:
输出表:
以下代码不起作用,因为我使用的是 Spark 1.5.1,Spark 1.6 提供了数据透视函数:
apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符
我创建了一个配置单元外部表,存储为按 event_date 日期分区的文本文件。
从 Hive 表中读取 spark 时,我们如何指定特定格式的 csv?
环境是
斯卡拉脚本
蜂巢表
看着hdfs
PS如果我们将表存储为orc,它会按预期写入和读取数据。
如果“字段终止于”是默认的,那么 Spark 可以按预期读取数据,因此我猜这将是一个错误。
scala - 无法在 Spark 中使用来自 HDFS 的文件
我已经下载了 Spark-1.6.1 版本。它已经为我的 hadoop 2.6 版本构建了,所以我只需要解压缩它并且永远不会弄乱构建的工具。在我写的 core-site.xml 文件中
然后我上传了一个名为 LICENSE 的 txt 文件。
当我在 scala 命令行中编写时
我得到:
我应该从一开始就手动构建火花吗?
apache-spark - Spark 作业执行时间
这可能是一个非常简单的问题。但是有没有什么简单的方法来测量 spark 作业的执行时间(使用提交spark-submit
)?
它将帮助我们根据输入数据的大小来分析 Spark 作业。
编辑:我http://[driver]:4040
用来监控我的工作,但这个 Web UI 在我的工作完成时关闭。
apache-spark - Spark SQL like 使用 sqlContext select 不返回结果 spark 版本 1.5.1/1.5.2
似乎带有 hive 的 spark sql 不支持“sql like”。这是我在 spark-shell 中用于测试的示例代码
它不会显示任何结果。我检查了 sqlContext 它是 hiveContext
scala> sqlContext
res15: org.apache.spark.sql.SQLContext =org.apache.spark.sql.hive.HiveContext@4f03729f
有谁知道为什么?
apache-spark - 自定义数据源的自动火花模式推断
我正在为自定义数据源(属性文件)实现 spark(1.5.2) sql RelationProvider。
有人可以解释一下应该如何实现自动推理算法吗?
apache-spark - 如何使用 CrossValidator 获得 Precision/Recall 以使用 Spark 训练 NaiveBayes 模型
假设我有这样的管道:
如您所见,我使用 MultiClassClassificationEvaluator 定义了 CrossValidator。我已经看到很多示例在测试过程中获取诸如 Precision/Recall 之类的指标,但是当您使用不同的数据集进行测试时会获得这些指标(例如,请参见本文档)。
据我了解,CrossValidator 将创建折叠,其中一个折叠将用于测试目的,然后 CrossValidator 将选择最佳模型。我的问题是,是否有可能在训练过程中获得 Precision/Recall 指标?