问题标签 [apache-toree]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

64 问题

0 投票

1 回答

101 浏览

scala - 在 Spark-kernel 中编辑 Spark 模块

我们目前正在编辑 Spark 中的特定模块。我们正在使用 spark-kernel https://github.com/ibm-et/spark-kernel来运行我们所有的 spark 作业。所以，我们所做的是再次编译我们编辑过的代码。这会生成一个 jar 文件。但是，我们不知道如何将代码指向 jar 文件。

看起来它再次引用了旧脚本，而不是新编辑和新编译的脚本。您对如何修改一些 spark 包/模块并使用 spark-kernel 反映更改有一些想法吗？如果我们不打算使用 spark-kernel，有没有办法可以在 spark 中编辑特定模块，例如 spark 中的 ALS 模块：https ://github.com/apache/spark/blob/master/mllib /src/main/scala/org/apache/spark/ml/recommendation/ALS.scala。谢谢！

2016-03-14T13:44:02.310

0 投票

2 回答

8306 浏览

apache-spark - 如何在 (ana)conda 环境中的 Jupyter 中为 Spark 内核安装 Apache Toree？

我正在尝试在anaconda 发行版的conda环境（我使用http://conda.pydata.org/docs/test-drive.html设置）中安装Jupyter支持Spark。为此，我正在尝试使用apache toree作为Jupyter Kernel。

这是我安装 Anaconda 后所做的：

一切正常，直到我到达最后一行。我明白了

这就引出了一个问题：它为什么还要查看那个目录？毕竟它应该留在环境中。因此我执行

并得到

我不太确定发生了什么以及如何继续让所有东西都在 conda 环境“jupyter”中运行（如果可能的话）。

apache-spark anaconda jupyter-notebook conda apache-toree

2016-05-13T16:05:57.470

0 投票

3 回答

3223 浏览

apache-spark - 在 toree 中安装 spark 包

我通常用以下方式启动我的 spark-shell：

我现在正在尝试使用 Apache Toree，知道如何在笔记本上加载这些库吗？

我尝试了以下方法：

但这似乎不起作用

apache-spark jupyter-notebook apache-toree

2016-05-19T13:23:41.540

0 投票

1 回答

1136 浏览

json - “任务不可序列化”试图解析 JSON

尽管

在带有 Apache Toree 内核的 Jupyter notebook 上工作，

即使所述示例来自https://github.com/databricks/learning-spark/blob/master/src/main/scala/com/oreilly/learningsparkexamples/scala/BasicParseJson.scala

我知道传递给其他节点的对象需要序列化，这似乎是不可能的。那么这个例子有问题还是我做错了什么？我该如何解决？

顺便一提

将导致

我曾经result.collect测试这部分代码是否正确。

另外，如果我写

而不是result.collect我得到

所以我想必须声明Person为Serializable。但是，在抛出错误extends Serializable时最后添加它没有效果with Serializable

json scala apache-spark jupyter-notebook apache-toree

2016-05-19T18:18:07.153

0 投票

2 回答

1162 浏览

scala - 在 Dataproc 上运行 Spark + Scala + Jupyter

我还没有设法让 Spark、Scala 和 Jupyter 合作。有人有简单的食谱吗？您使用了每个组件的哪个版本？

scala apache-spark jupyter-notebook google-cloud-dataproc apache-toree

2016-06-28T23:57:07.270

0 投票

1 回答

143 浏览

apache-toree - Apache Toree 工作进度

使用 Apache Toree 可以在 Spark 上执行任意表达式。假设我们要执行一些 SQL 查询，例如：sqlContext.sql(..)

这样的 SQL 查询是否有可能取得进展（比如在 Zeppelin 中）？也许 Toree 可以提供一些查询指标（如X tasks from N are done）？

apache-toree

2016-06-29T12:41:44.957

0 投票

0 回答

178 浏览

scala - 火花异常错误

我最近在 Spark (Apache Toree) 中遇到了这个错误。我正在尝试分解一个矩阵（大约 4000 x 1000）。它在较小的迭代（es 10、15）下运行良好，但在较大的迭代（我现在只尝试了 50 次）下，我每次都会收到此错误消息。

错误信息

scala apache-spark apache-toree

2016-08-08T14:13:13.687

0 投票

2 回答

4269 浏览

windows - 在 Windows 和 Apache Toree 内核上使用 Jupyter 以实现 Spark 兼容性

我正在尝试安装 Apache Toree 内核以实现 spark 兼容性，但我遇到了一个奇怪的环境消息。这是我遵循的过程：

使用 Jupyter 4.1.0 安装最后一个 Anaconda 版本
运行： pip install --pre toree
运行： jupyter toree install --interpreters=PySpark,SparkR,Scala,SQL

只对 Scala Kernel 真正感兴趣，但我安装了所有解释器。操作系统是windows 7，没有选择使用虚拟机或linux。

这是我修改后使用 cygwin 执行 run.sh bash 脚本的 kernel.json 文件：

运行 jupyter 时，内核停止并出现错误：

扩展日志：

我已经运行了隔离的命令：

它有效。它仅在 jupyter 服务器执行的上下文中失败。

有人成功在 Window 机器上运行这个内核吗？

windows scala apache-spark jupyter-notebook apache-toree

2016-09-14T08:56:35.707

0 投票

3 回答

7210 浏览

python - 为 Jupyter (Anaconda) 安装 Scala 内核（或 Spark/Toree）

我正在运行 RHEL 6.7，并设置了 Anaconda。（蟒蛇4.10）。Jupyter 正在运行 OOTB，默认情况下它具有 Python 内核。一切都很花哨，所以我可以在 Jupyter 中选择“python notebook”。

我现在也在寻找使用 Jupyter 设置 Scala 的方法。（看起来像 Spark 内核——现在 Toree 可以工作了吗？）

我看到的每一个问题/答案都没有提到我遇到的问题。

我试图安装 Toree，并做到了

它奏效了。但是接下来的步骤也是

我得到的错误是：

我错过了一步吗？有什么我做错了吗？如果我需要提供更多信息，我也会很高兴。谢谢！

编辑：在 Jupyter 中获取 Scala 笔记本的标准/最简单/可靠的方法是什么？(tl;博士)

python scala jupyter jupyter-notebook apache-toree

2016-09-16T16:06:09.833

0 投票

1 回答

1652 浏览

matplotlib - 如何让 iPython inbuild 魔术命令在 Jupyter notebook Pyspark 内核中工作？

我正在使用通过使用（）安装的PySpark内核。从获取表格后，按照以下教程在 Jupyter 笔记本中绘制一些图表：Apache ToreeJupyter NotebookAnaconda v4.0.0Python 2.7.11Hivematplotlib/panda

当我尝试使用 %matplotlib inline 时，我被困在第一个链接上，它显示

看着Toree Magic和MagicManager，我意识到这%matplotlib是调用MagicManager而不是iPython内置的魔法命令。

是否可以Apache Toree - PySpark改用 iPython 内置魔法命令？

matplotlib ipython pyspark jupyter apache-toree

2016-09-19T09:44:17.787

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-toree]

Reference