问题标签 [apache-toree]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
60 浏览

dataframe - 如何以像样的方式在 pyspark 中显示数据框。

命令

df_load.describe().toPandas().transpose()

上面的命令给出以下输出。无法读取以下输出。在 jupyter notebook 中有什么方法可以让我以表格的方式查看下面的数据框。我正在使用“apachee toree-pyspark”内核在 jupyter notebook 中运行此代码。

汇总计数平均值标准差
“固定酸度”;“挥发性酸度”;“柠檬酸... 1599 无 无

摘要 min
"固定酸度";"挥发性酸度";"柠檬酸... 10.1;0.27;0.54;2.3;0.065;7;26;0.99531;3.17;0.5...

最大摘要
“固定酸度”;“挥发性酸度”;“柠檬酸... 9;0.8;0.12;2.4;0.083;8;28;0.99836;3.33;0.65;10...

0 投票
1 回答
407 浏览

dataframe - 如何使用带有 apachee-toree 内核的 pyspark 在 jupyter notebook 中以良好的格式显示数据框

如果输出的格式不正确,如此链接中的图像所示 ->所需的输出,则读取输出将变得非常困难。我正在使用 apache-toree 内核在 pyspark 中的 jupyter notebook 上运行我的代码。目前,当我显示我的数据框时,它看起来有点像此链接 ->当前表中的图像所示。

我知道有一种使用 apache toree网站上提到的“魔法”的方法,但它在 pyspark 中也不起作用。如果我在 jupyter 中加载一个普通的 python 笔记本,它就可以工作。它使用 pyspark给出了图像中显示的错误

我无法在互联网上找到任何关于此的内容。很感谢任何形式的帮助。

0 投票
1 回答
412 浏览

apache-toree - 如何在笔记本中启用 Hive 对 Spark 的支持?

默认情况下,我得到预定义的火花会话对象(火花)。哪个未启用配置单元。如何获得启用蜂巢的火花会话?

0 投票
0 回答
146 浏览

scala - 如何使 Apache Toree 与 Jupyter 一起工作

我正在尝试在 Mac OS High Sierra 中使用 Apache Three 和 jupyter。当我正确安装所有东西时:

pip3 install --user toree

当我尝试安装任何东西时,jupyter toree install我最终会收到一条简单的消息:Error executing Jupyter command 'toree': [Errno 2] No such file or directory

我用谷歌搜索了这条消息,最后得到了关于错误的抽象搜索,不包括 toree 本身,那么这是如何解决的呢?

0 投票
2 回答
1056 浏览

scala - Jupyter Notebook (Scala, kernel - Apache Toree) with Vegas, 图表不显示数据

我正在使用 Jupyter (kernal - Apache Torre) 使用 Apache Spark/Scala 进行分析。对于可视化,我正在尝试使用 Vegas(github - https://github.com/vegas-viz/Vegas

当我使用示例 Vegas 代码时 - 不使用 Vegas Spark 扩展,它工作正常(请参阅随附的屏幕截图)

但是,对于 DataFrames,它似乎没有显示图表。(即图表不显示数据)

这是代码 -

Vegas-with-DF

没有 DF 的维加斯

我在这里做错了什么?

这是包含 Scala 扩展的正确方法吗?

0 投票
1 回答
446 浏览

scala - 使用 IntelliJ idea 的 Scala 工作表作为 Apache Spark 的 Scala REPL

是否可以在 IntelliJ 中使用 Scala 工作表作为 Jupyter 笔记本的替代品。我遵循了这里提到的解决方案,但是它在本地而不是在远程集群上运行代码。我的主要挑战是 IntelliJ IDE 在我的笔记本电脑上本地运行,而 spark 集群在云中。如何让 IntelliJ 使用远程 SBT?

0 投票
1 回答
104 浏览

scala - System.loadLibrary(“libName”)上的“java.library.path 中没有 libName”

在 Apache Toree - Scala 内核中的 anaconda jupyter notebook 中工作。

我正在打电话:当我检查我看到的 env 时System.loadLibrary("libName"),我收到一个 java 错误,其中包含. 我还打电话直接检查java var,它也包含。no libName in java.library.pathLD_LIBRARY_PATH=/path/to/lib/folderfolderlibName.soSystem.getProperty("java.library.path")/path/to/lib/folder

有人知道我在做什么错吗?

jupyter_notebook_config.py我让 env使用以下两条 python 行来修改这个变量集:

os.environ['LD_LIBRARY_PATH'] = "/path/to/lib/folder" c.Spawner.env.update('LD_LIBRARY_PATH')

0 投票
0 回答
151 浏览

apache-spark-sql - 如何为单用户 Jupyterhub 服务器 REST API 调用设置特定端口?

我已经使用 Apache Toree SQL 内核在 Jypterhub 上设置了 Spark SQL。我编写了一个 Python 函数来更新 kernel.json 文件中的 Spark 配置选项,以便我的团队根据他们的查询和集群配置更改配置。但是我必须在运行 Python 函数后关闭正在运行的笔记本并重新打开或重新启动内核。通过这种方式,我强制 Toree 内核读取 JSON 文件以获取新配置。

我想以编程方式实现内核的关闭和重启。我了解了 Jupyterhub REST API 文档,并能够通过调用相关 API 来实现它。但问题是,单用户服务器 API 端口是由 Jupyterhub 的 Spawner 对象随机设置的,并且每次启动集群时它都会不断变化。我希望在启动 Jupyterhub 服务之前解决这个问题。

这是我根据 Jupyterhub 文档尝试的解决方案:

sudo echo "c.Spawner.port = 35289 c.Spawner.ip = '127.0.0.1'" >> /etc/jupyterhub/jupyterhub_config.py

但这不起作用,因为端口再次由 Spawner 随机设置。我认为有办法解决这个问题。对此的任何帮助将不胜感激。谢谢

0 投票
0 回答
43 浏览

python - 创建 Spark 会话失败

这可能是一个幼稚的问题。

当我从下面的代码中使用 pyspark 创建 spark 上下文时,运行应用程序的状态开始出现在 spark 仪表板上的“正在运行的应用程序”下

但是当我从下面的代码片段创建火花会话时,火花仪表板上没有显示应用程序的状态。

我不确定为什么会这样,因为我对 Spark 完全陌生,所以请提供帮助。

0 投票
0 回答
111 浏览

scala - 如何在 Apache Toree 笔记本中执行 shell 命令

我需要在 Apache Toree notebook 中执行 shell 命令。

在python中,我会写类似 !echo asd

如何在 Scala 笔记本中做到这一点?