问题标签 [apache-toree]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
540 浏览

apache-spark - Scala 的 Apache Toree 语法高亮

“Apache Toree - Scala”的语法高亮显示无法正常工作。当我在单元格中编写一些代码时,Jupyter 不会突出显示它。

在此处输入图像描述

但是,当我刷新笔记本时,它会突出显示所有内容: 在此处输入图像描述

我已经配置了kernel.json文件,但它没有帮助。有人知道解决这个问题的方法吗?

0 投票
1 回答
3293 浏览

scala - Apache Toree 和 Spark Scala 在 Jupyter 中不起作用

我在 Jupyter 上运行 Scala Spark 时遇到问题。以下是我在 jupyter 中加载 Apache Toree - Scala notebook 时的错误消息。

运行 Scala shell 时,这是我的输出日志

这个问题之前在 jira https://issues.apache.org/jira/browse/TOREE-336中被强调过。但是,由于某种原因,我仍然无法使其正常工作。

我按照他们官方网站上列出的说明进行操作。 https://toree.apache.org/documentation/user/quick-start

这是我的道路

请注意,我没有安装 Scala,因为它带有 spark。

谢谢

0 投票
1 回答
383 浏览

java - 无法构建和编译 Toree

从 master 构建时,我在运行make dev和toree 时遇到错误。make releasemake jupyter

我的机器是 Ubuntu 16.04

make release在 toree root 中运行时,我得到

make jupyter

我通过安装javaapt-get install default-jdk

make release

我安装了 docker

0 投票
1 回答
1145 浏览

apache-spark - Jupyter + Apache toree - scala内核很忙

我已经在 ubuntu 服务器 16.04 上通过 python 3.5.2 安装了 jupyter notebook 我还安装了 apache toree 来从 jupyter 运行 spark 作业。

我跑:

输出是成功的:

[ToreeInstall] 安装 Apache Toree 版本 0.1.0.dev8 [ToreeInstall] Apache Toree 是 Apache 软件基金会 (ASF) 正在进行的一项孵化工作,由 Apache Incubator PMC 赞助。

所有新接受的项目都需要进行孵化,直到进一步审查表明基础设施、通信和决策过程已以与其他成功的 ASF 项目一致的方式稳定。

虽然孵化状态不一定反映代码的完整性或稳定性,但它确实表明该项目尚未得到 ASF 的完全认可。

此外,此版本不完全符合 Apache 发布政策,并包含一个运行时依赖项,该依赖项被许可为 LGPL v3(加上静态链接例外)。该软件包目前正在重新许可(https://github.com/zeromq/jeromq/issues/327)。[ToreeInstall] 创建内核 Scala [ToreeInstall] 删除 /usr/local/share/jupyter/kernels/apache_toree_scala 中的现有内核规范 [ToreeInstall] 在 /usr/local/share/jupyter/kernels/apache_toree_scala 中安装内核规范 apache_toree_scala

我虽然一切都很成功,但每次我创建一个 apache toree 笔记本时,我都会看到以下内容:

在此处输入图像描述

它说内核很忙,我的所有命令都被忽略了..

我在网上找不到有关此问题的任何信息。toree 的替代品也将被接受。

谢谢

0 投票
1 回答
942 浏览

pyspark - 使用 Jupyter (Apache Toree PySpark) 调用 plotly 的 init_notebook_mode 时出错

我正在使用 Apache Toree - PySpark 运行 Jupyter (v4.2.1)。当我尝试调用 plotly 的 init_notebook_mode 函数时,我遇到了以下错误:

错误 :

我无法在网上找到有关此的任何信息。当我深入研究失败的代码时 - IPython utils 中的 io.py ,我看到正在传递的流必须具有两个属性 - 写入和刷新。但由于某种原因,在这种情况下传递的流 - sys.stdout 只有“write”属性,没有“flush”属性。

0 投票
0 回答
316 浏览

apache-toree - Jupyter 内核 Apache toree 启动超时

我在我的 Ubuntu 16.04 系统中使用以下命令安装了 toree:

然后我检查了内核列表。我成功安装了内核:

然后我启动 jupyter,问题来了:当我使用该内核创建新笔记本时,apache_toree_scala 和 apache_toree_pyspark 内核都会在错误“超时”中运行。这是错误消息:

我的 ubuntu 安装在 VirtualBox 中。但我认为这应该不是问题。

0 投票
1 回答
706 浏览

scala - 什么是 apache toree 的 spark 内核?

我有一个火花簇,它的主人在 192.168.0.60:7077

我曾经使用 jupyter notebook 制作一些 pyspark 脚本。我现在愿意继续使用 scala。我不知道斯卡拉的世界。我正在尝试使用 Apache Toree。我安装了它,下载了 scala 内核,然后运行它以打开一个 scala notebook 。直到那里一切看起来都很好:-/

但是我找不到 spark 上下文,并且 jupyter 的服务器日志中有错误:

因为我不知道 scala,所以我不确定这里的问题?它可能是 :

  1. 我需要一个火花内核(根据https://github.com/ibm-et/spark-kernel/wiki/Getting-Started-with-the-Spark-Kernel
  2. 我需要在服务器上添加一个选项(错误消息说'Master must start with yarn, spark, mesos, or local')

  3. 或者是其他东西 :-/

我只是愿意从 python 迁移到 scala,而我在启动 jupyter IDE 时浪费了几个小时:-/

0 投票
1 回答
634 浏览

scala - 单元格宽度 Jupyter 笔记本 - Apache Toree - Scala

如何使用 Apache Toree - Scala 内核增加 Jupyter 笔记本的单元格宽度?

通常

确实不行。

0 投票
6 回答
32115 浏览

python - Jupyter pyspark:没有名为 pyspark 的模块

谷歌确实到处都是这个问题的解决方案,但不幸的是,即使在尝试了所有可能性之后,我也无法让它工作,所以请耐心等待,看看是否有什么让你印象深刻。

操作系统:MAC

火花:1.6.3 (2.10)

Jupyter 笔记本:4.4.0

蟒蛇:2.7

斯卡拉:2.12.1

我能够成功安装和运行 Jupyter notebook。接下来,我尝试将其配置为与 Spark 一起使用,为此我使用 Apache Toree 安装了 spark 解释器。现在,当我尝试在笔记本中运行任何 RDD 操作时,会引发以下错误

已经尝试过的事情: 1. 在 .bash_profile 中设置 PYTHONPATH 2. 能够在本地的 python-cli 中导入“pyspark” 3. 尝试将解释器 kernel.json 更新为以下

  1. 甚至更新了解释器 run.sh 以显式加载 py4j-0.9-src.zip 和 pyspark.zip 文件。当打开 PySpark 笔记本并创建 SparkContext 时,我可以看到从本地上传的 spark-assembly、py4j 和 pyspark 包,但仍然在调用操作时,不知何故找不到 pyspark。
0 投票
1 回答
483 浏览

apache-spark - 与另一个用户一起运行用户本地 jupyter 安装

我已经使用 --user 选项安装了 jupyter,它工作正常。我需要在笔记本中运行 spark 并从 HDFS 读取数据,并且与我的个人用户一起运行 jupyter 会导致 HDFS 中的文件权限出现问题。因此,我决定使用 hdfs 用户运行它(我们的集群配置为所有 spark 作业都应该由这个 hdfs 用户运行),但是它找不到/home/myuser/.local我个人用户文件夹中的依赖项。有没有办法告诉 jupyter 以当前用户(hdfs)的身份运行,但在另一个用户的家中寻找二进制文件和依赖项?

我也使用 toree 作为网关,如果这可以打开更多选项。