问题标签 [apache-toree]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
101 浏览

scala - 在 Spark-kernel 中编辑 Spark 模块

我们目前正在编辑 Spark 中的特定模块。我们正在使用 spark-kernel https://github.com/ibm-et/spark-kernel来运行我们所有的 spark 作业。所以,我们所做的是再次编译我们编辑过的代码。这会生成一个 jar 文件。但是,我们不知道如何将代码指向 jar 文件。

看起来它再次引用了旧脚本,而不是新编辑和新编译的脚本。您对如何修改一些 spark 包/模块并使用 spark-kernel 反映更改有一些想法吗?如果我们不打算使用 spark-kernel,有没有办法可以在 spark 中编辑特定模块,例如 spark 中的 ALS 模块:https ://github.com/apache/spark/blob/master/mllib /src/main/scala/org/apache/spark/ml/recommendation/ALS.scala。谢谢!

0 投票
2 回答
8306 浏览

apache-spark - 如何在 (ana)conda 环境中的 Jupyter 中为 Spark 内核安装 Apache Toree?

我正在尝试在anaconda 发行版conda环境(我使用http://conda.pydata.org/docs/test-drive.html设置)中安装Jupyter支持Spark。为此,我正在尝试使用apache toree作为Jupyter Kernel

这是我安装 Anaconda 后所做的:

一切正常,直到我到达最后一行。我明白了

这就引出了一个问题:它为什么还要查看那个目录?毕竟它应该留在环境中。因此我执行

并得到

我不太确定发生了什么以及如何继续让所有东西都在 conda 环境“jupyter”中运行(如果可能的话)。

0 投票
3 回答
3223 浏览

apache-spark - 在 toree 中安装 spark 包

我通常用以下方式启动我的 spark-shell:

我现在正在尝试使用 Apache Toree,知道如何在笔记本上加载这些库吗?

我尝试了以下方法:

但这似乎不起作用

0 投票
1 回答
1136 浏览

json - “任务不可序列化”试图解析 JSON

尽管

在带有 Apache Toree 内核的 Jupyter notebook 上工作,

返回

即使所述示例来自https://github.com/databricks/learning-spark/blob/master/src/main/scala/com/oreilly/learningsparkexamples/scala/BasicParseJson.scala

我知道传递给其他节点的对象需要序列化,这似乎是不可能的。那么这个例子有问题还是我做错了什么?我该如何解决?


顺便一提

将导致

我曾经result.collect测试这部分代码是否正确。

另外,如果我写

而不是result.collect我得到

所以我想必须声明PersonSerializable。但是,在抛出错误extends Serializable时最后添加它没有效果with Serializable

0 投票
2 回答
1162 浏览

scala - 在 Dataproc 上运行 Spark + Scala + Jupyter

我还没有设法让 Spark、Scala 和 Jupyter 合作。有人有简单的食谱吗?您使用了每个组件的哪个版本?

0 投票
1 回答
143 浏览

apache-toree - Apache Toree 工作进度

使用 Apache Toree 可以在 Spark 上执行任意表达式。假设我们要执行一些 SQL 查询,例如:sqlContext.sql(..)

这样的 SQL 查询是否有可能取得进展(比如在 Zeppelin 中)?也许 Toree 可以提供一些查询指标(如X tasks from N are done)?

0 投票
0 回答
178 浏览

scala - 火花异常错误

我最近在 Spark (Apache Toree) 中遇到了这个错误。我正在尝试分解一个矩阵(大约 4000 x 1000)。它在较小的迭代(es 10、15)下运行良好,但在较大的迭代(我现在只尝试了 50 次)下,我每次都会收到此错误消息。

错误信息

0 投票
2 回答
4269 浏览

windows - 在 Windows 和 Apache Toree 内核上使用 Jupyter 以实现 Spark 兼容性

我正在尝试安装 Apache Toree 内核以实现 spark 兼容性,但我遇到了一个奇怪的环境消息。这是我遵循的过程:

  1. 使用 Jupyter 4.1.0 安装最后一个 Anaconda 版本
  2. 运行: pip install --pre toree
  3. 运行: jupyter toree install --interpreters=PySpark,SparkR,Scala,SQL

只对 Scala Kernel 真正感兴趣,但我安装了所有解释器。操作系统是windows 7,没有选择使用虚拟机或linux。

这是我修改后使用 cygwin 执行 run.sh bash 脚本的 kernel.json 文件:

运行 jupyter 时,内核停止并出现错误:

扩展日志:

我已经运行了隔离的命令:

它有效。它仅在 jupyter 服务器执行的上下文中失败。

有人成功在 Window 机器上运行这个内核吗?

0 投票
3 回答
7210 浏览

python - 为 Jupyter (Anaconda) 安装 Scala 内核(或 Spark/Toree)

我正在运行 RHEL 6.7,并设置了 Anaconda。(蟒蛇4.10)。Jupyter 正在运行 OOTB,默认情况下它具有 Python 内核。一切都很花哨,所以我可以在 Jupyter 中选择“python notebook”。

我现在也在寻找使用 Jupyter 设置 Scala 的方法。(看起来像 Spark 内核——现在 Toree 可以工作了吗?)

我看到的每一个问题/答案都没有提到我遇到的问题。

我试图安装 Toree,并做到了

它奏效了。但是接下来的步骤也是

我得到的错误是:

我错过了一步吗?有什么我做错了吗?如果我需要提供更多信息,我也会很高兴。谢谢!

编辑:在 Jupyter 中获取 Scala 笔记本的标准/最简单/可靠的方法是什么?(tl;博士)

0 投票
1 回答
1652 浏览

matplotlib - 如何让 iPython inbuild 魔术命令在 Jupyter notebook Pyspark 内核中工作?

我正在使用通过使用( )安装的PySpark内核。从 获取表格后,按照以下教程在 Jupyter 笔记本中绘制一些图表:Apache ToreeJupyter NotebookAnaconda v4.0.0Python 2.7.11Hivematplotlib/panda

当我尝试使用 %matplotlib inline 时,我被困在第一个链接上,它显示

看着Toree MagicMagicManager,我意识到这%matplotlib是调用MagicManager而不是iPython内置的魔法命令。

是否可以Apache Toree - PySpark改用 iPython 内置魔法命令?