问题标签 [apache-toree]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 在 Spark-kernel 中编辑 Spark 模块
我们目前正在编辑 Spark 中的特定模块。我们正在使用 spark-kernel https://github.com/ibm-et/spark-kernel来运行我们所有的 spark 作业。所以,我们所做的是再次编译我们编辑过的代码。这会生成一个 jar 文件。但是,我们不知道如何将代码指向 jar 文件。
看起来它再次引用了旧脚本,而不是新编辑和新编译的脚本。您对如何修改一些 spark 包/模块并使用 spark-kernel 反映更改有一些想法吗?如果我们不打算使用 spark-kernel,有没有办法可以在 spark 中编辑特定模块,例如 spark 中的 ALS 模块:https ://github.com/apache/spark/blob/master/mllib /src/main/scala/org/apache/spark/ml/recommendation/ALS.scala。谢谢!
apache-spark - 如何在 (ana)conda 环境中的 Jupyter 中为 Spark 内核安装 Apache Toree?
我正在尝试在anaconda 发行版 的conda环境(我使用http://conda.pydata.org/docs/test-drive.html设置)中安装Jupyter支持Spark。为此,我正在尝试使用apache toree作为Jupyter Kernel。
这是我安装 Anaconda 后所做的:
一切正常,直到我到达最后一行。我明白了
这就引出了一个问题:它为什么还要查看那个目录?毕竟它应该留在环境中。因此我执行
并得到
我不太确定发生了什么以及如何继续让所有东西都在 conda 环境“jupyter”中运行(如果可能的话)。
apache-spark - 在 toree 中安装 spark 包
我通常用以下方式启动我的 spark-shell:
我现在正在尝试使用 Apache Toree,知道如何在笔记本上加载这些库吗?
我尝试了以下方法:
但这似乎不起作用
json - “任务不可序列化”试图解析 JSON
尽管
在带有 Apache Toree 内核的 Jupyter notebook 上工作,
返回
我知道传递给其他节点的对象需要序列化,这似乎是不可能的。那么这个例子有问题还是我做错了什么?我该如何解决?
顺便一提
将导致
我曾经result.collect
测试这部分代码是否正确。
另外,如果我写
而不是result.collect
我得到
所以我想必须声明Person
为Serializable
。但是,在抛出错误extends Serializable
时最后添加它没有效果with Serializable
scala - 在 Dataproc 上运行 Spark + Scala + Jupyter
我还没有设法让 Spark、Scala 和 Jupyter 合作。有人有简单的食谱吗?您使用了每个组件的哪个版本?
apache-toree - Apache Toree 工作进度
使用 Apache Toree 可以在 Spark 上执行任意表达式。假设我们要执行一些 SQL 查询,例如:sqlContext.sql(..)
这样的 SQL 查询是否有可能取得进展(比如在 Zeppelin 中)?也许 Toree 可以提供一些查询指标(如X tasks from N are done
)?
scala - 火花异常错误
我最近在 Spark (Apache Toree) 中遇到了这个错误。我正在尝试分解一个矩阵(大约 4000 x 1000)。它在较小的迭代(es 10、15)下运行良好,但在较大的迭代(我现在只尝试了 50 次)下,我每次都会收到此错误消息。
windows - 在 Windows 和 Apache Toree 内核上使用 Jupyter 以实现 Spark 兼容性
我正在尝试安装 Apache Toree 内核以实现 spark 兼容性,但我遇到了一个奇怪的环境消息。这是我遵循的过程:
- 使用 Jupyter 4.1.0 安装最后一个 Anaconda 版本
- 运行: pip install --pre toree
- 运行: jupyter toree install --interpreters=PySpark,SparkR,Scala,SQL
只对 Scala Kernel 真正感兴趣,但我安装了所有解释器。操作系统是windows 7,没有选择使用虚拟机或linux。
这是我修改后使用 cygwin 执行 run.sh bash 脚本的 kernel.json 文件:
运行 jupyter 时,内核停止并出现错误:
扩展日志:
我已经运行了隔离的命令:
它有效。它仅在 jupyter 服务器执行的上下文中失败。
有人成功在 Window 机器上运行这个内核吗?
python - 为 Jupyter (Anaconda) 安装 Scala 内核(或 Spark/Toree)
我正在运行 RHEL 6.7,并设置了 Anaconda。(蟒蛇4.10)。Jupyter 正在运行 OOTB,默认情况下它具有 Python 内核。一切都很花哨,所以我可以在 Jupyter 中选择“python notebook”。
我现在也在寻找使用 Jupyter 设置 Scala 的方法。(看起来像 Spark 内核——现在 Toree 可以工作了吗?)
我看到的每一个问题/答案都没有提到我遇到的问题。
我试图安装 Toree,并做到了
它奏效了。但是接下来的步骤也是
我得到的错误是:
我错过了一步吗?有什么我做错了吗?如果我需要提供更多信息,我也会很高兴。谢谢!
编辑:在 Jupyter 中获取 Scala 笔记本的标准/最简单/可靠的方法是什么?(tl;博士)
matplotlib - 如何让 iPython inbuild 魔术命令在 Jupyter notebook Pyspark 内核中工作?
我正在使用通过使用( )安装的PySpark
内核。从 获取表格后,按照以下教程在 Jupyter 笔记本中绘制一些图表:Apache Toree
Jupyter Notebook
Anaconda v4.0.0
Python 2.7.11
Hive
matplotlib/panda
当我尝试使用 %matplotlib inline 时,我被困在第一个链接上,它显示
看着Toree Magic和MagicManager,我意识到这%matplotlib
是调用MagicManager
而不是iPython
内置的魔法命令。
是否可以Apache Toree - PySpark
改用 iPython 内置魔法命令?