问题标签 [apache-toree]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Apache Toree 和 Spark Scala 在 Jupyter 中不起作用
我在 Jupyter 上运行 Scala Spark 时遇到问题。以下是我在 jupyter 中加载 Apache Toree - Scala notebook 时的错误消息。
运行 Scala shell 时,这是我的输出日志
这个问题之前在 jira https://issues.apache.org/jira/browse/TOREE-336中被强调过。但是,由于某种原因,我仍然无法使其正常工作。
我按照他们官方网站上列出的说明进行操作。 https://toree.apache.org/documentation/user/quick-start
这是我的道路
请注意,我没有安装 Scala,因为它带有 spark。
谢谢
java - 无法构建和编译 Toree
从 master 构建时,我在运行make dev
和toree 时遇到错误。make release
make jupyter
我的机器是 Ubuntu 16.04
make release
在 toree root 中运行时,我得到
make jupyter
我通过安装javaapt-get install default-jdk
make release
我安装了 docker
apache-spark - Jupyter + Apache toree - scala内核很忙
我已经在 ubuntu 服务器 16.04 上通过 python 3.5.2 安装了 jupyter notebook 我还安装了 apache toree 来从 jupyter 运行 spark 作业。
我跑:
输出是成功的:
[ToreeInstall] 安装 Apache Toree 版本 0.1.0.dev8 [ToreeInstall] Apache Toree 是 Apache 软件基金会 (ASF) 正在进行的一项孵化工作,由 Apache Incubator PMC 赞助。
所有新接受的项目都需要进行孵化,直到进一步审查表明基础设施、通信和决策过程已以与其他成功的 ASF 项目一致的方式稳定。
虽然孵化状态不一定反映代码的完整性或稳定性,但它确实表明该项目尚未得到 ASF 的完全认可。
此外,此版本不完全符合 Apache 发布政策,并包含一个运行时依赖项,该依赖项被许可为 LGPL v3(加上静态链接例外)。该软件包目前正在重新许可(https://github.com/zeromq/jeromq/issues/327)。[ToreeInstall] 创建内核 Scala [ToreeInstall] 删除 /usr/local/share/jupyter/kernels/apache_toree_scala 中的现有内核规范 [ToreeInstall] 在 /usr/local/share/jupyter/kernels/apache_toree_scala 中安装内核规范 apache_toree_scala
我虽然一切都很成功,但每次我创建一个 apache toree 笔记本时,我都会看到以下内容:
它说内核很忙,我的所有命令都被忽略了..
我在网上找不到有关此问题的任何信息。toree 的替代品也将被接受。
谢谢
pyspark - 使用 Jupyter (Apache Toree PySpark) 调用 plotly 的 init_notebook_mode 时出错
我正在使用 Apache Toree - PySpark 运行 Jupyter (v4.2.1)。当我尝试调用 plotly 的 init_notebook_mode 函数时,我遇到了以下错误:
错误 :
我无法在网上找到有关此的任何信息。当我深入研究失败的代码时 - IPython utils 中的 io.py ,我看到正在传递的流必须具有两个属性 - 写入和刷新。但由于某种原因,在这种情况下传递的流 - sys.stdout 只有“write”属性,没有“flush”属性。
apache-toree - Jupyter 内核 Apache toree 启动超时
我在我的 Ubuntu 16.04 系统中使用以下命令安装了 toree:
然后我检查了内核列表。我成功安装了内核:
然后我启动 jupyter,问题来了:当我使用该内核创建新笔记本时,apache_toree_scala 和 apache_toree_pyspark 内核都会在错误“超时”中运行。这是错误消息:
我的 ubuntu 安装在 VirtualBox 中。但我认为这应该不是问题。
scala - 什么是 apache toree 的 spark 内核?
我有一个火花簇,它的主人在 192.168.0.60:7077
我曾经使用 jupyter notebook 制作一些 pyspark 脚本。我现在愿意继续使用 scala。我不知道斯卡拉的世界。我正在尝试使用 Apache Toree。我安装了它,下载了 scala 内核,然后运行它以打开一个 scala notebook 。直到那里一切看起来都很好:-/
但是我找不到 spark 上下文,并且 jupyter 的服务器日志中有错误:
因为我不知道 scala,所以我不确定这里的问题?它可能是 :
- 我需要一个火花内核(根据https://github.com/ibm-et/spark-kernel/wiki/Getting-Started-with-the-Spark-Kernel)
我需要在服务器上添加一个选项(错误消息说'Master must start with yarn, spark, mesos, or local')
或者是其他东西 :-/
我只是愿意从 python 迁移到 scala,而我在启动 jupyter IDE 时浪费了几个小时:-/
scala - 单元格宽度 Jupyter 笔记本 - Apache Toree - Scala
如何使用 Apache Toree - Scala 内核增加 Jupyter 笔记本的单元格宽度?
通常
确实不行。
python - Jupyter pyspark:没有名为 pyspark 的模块
谷歌确实到处都是这个问题的解决方案,但不幸的是,即使在尝试了所有可能性之后,我也无法让它工作,所以请耐心等待,看看是否有什么让你印象深刻。
操作系统:MAC
火花:1.6.3 (2.10)
Jupyter 笔记本:4.4.0
蟒蛇:2.7
斯卡拉:2.12.1
我能够成功安装和运行 Jupyter notebook。接下来,我尝试将其配置为与 Spark 一起使用,为此我使用 Apache Toree 安装了 spark 解释器。现在,当我尝试在笔记本中运行任何 RDD 操作时,会引发以下错误
已经尝试过的事情: 1. 在 .bash_profile 中设置 PYTHONPATH 2. 能够在本地的 python-cli 中导入“pyspark” 3. 尝试将解释器 kernel.json 更新为以下
- 甚至更新了解释器 run.sh 以显式加载 py4j-0.9-src.zip 和 pyspark.zip 文件。当打开 PySpark 笔记本并创建 SparkContext 时,我可以看到从本地上传的 spark-assembly、py4j 和 pyspark 包,但仍然在调用操作时,不知何故找不到 pyspark。
apache-spark - 与另一个用户一起运行用户本地 jupyter 安装
我已经使用 --user 选项安装了 jupyter,它工作正常。我需要在笔记本中运行 spark 并从 HDFS 读取数据,并且与我的个人用户一起运行 jupyter 会导致 HDFS 中的文件权限出现问题。因此,我决定使用 hdfs 用户运行它(我们的集群配置为所有 spark 作业都应该由这个 hdfs 用户运行),但是它找不到/home/myuser/.local
我个人用户文件夹中的依赖项。有没有办法告诉 jupyter 以当前用户(hdfs)的身份运行,但在另一个用户的家中寻找二进制文件和依赖项?
我也使用 toree 作为网关,如果这可以打开更多选项。