问题标签 [apache-toree]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Apache Toree - 如何将 Spark 内核服务与客户端代码连接起来?
我正在尝试构建一个 Java/Scala 应用程序,它将火花代码提交到远程火花集群。我正在使用 Apache Toree 即 Spark Kernal 来实现这一点。我已成功连接并使用 YARN 上的 Spark 启动了 Apache Toree 服务。
我需要编写一个 Java/Scala 客户端来连接到这个正在运行的 Apache Toree 服务,以便交互式提交 Spark 代码。
要写一个客户端,我指的是项目中的以下示例
现在我的问题是 - 如果 Spark Kernel/Apache Toree 运行在 IP 地址为 10.22.34.10:8042 或http://example.com:8042的边缘节点之一上,我应该在客户端代码中指定这个地址吗?客户端代码与远程 Spark Kernel/Apache Toree 服务建立连接并将 Spark 代码提交给正在运行的 Spark Kernel 执行?
简而言之 - 我们如何在客户端和 Apache Toree 服务/Spark Kernel 之间建立连接,即我的意思是客户端如何知道在哪里提交 spark 代码?- 我无法在示例示例中找到配置(上面的链接)。
PS:在我的用例中,我没有在任何地方使用 Jupyter - 在 Spark-Yarn 上简单地运行 Toree 服务并用 Java/scala 编写客户端来提交/执行 Spark 代码。
如果我遗漏了一些重要的东西作为我的用例的配置,请告诉我。
一个链接/示例到一个工作 Java/Scala 示例代码以连接到可以提交和执行 spark 代码的正在运行的 Toree 服务将受到高度赞赏。谢谢!
scala - 无法从 Jupyter-Toree-Scala %AddDeps HBase 1.3.1
我在 docker 容器中使用这个 jupyter toree 笔记本(https://github.com/jupyter/docker-stacks/tree/master/all-spark-notebook)。
我尝试在笔记本中使用此 %AddDeps 命令添加 HBASE 依赖项:
%AddDeps org.apache.hbase hbase 1.3.1 --transitive --verbose
似乎找到了所有依赖项,但我仍然得到这个输出(空错误?):
随后我无法调用import org.apache.hadoop.hbase
,这意味着该库尚未安装。我真的很感激任何建议,谢谢。
apache-spark - 为什么无法使用 ipython notebook 从 EMR 上的 Hive 表中读取?
我在亚马逊的 EMR 上使用 ipython notebook,带有 toree 内核。我想从我的 Hive 表中读取一些数据。
它告诉我
sog_l1screen
是我的数据库,v1_test_dw_l1_display_orc_dt
是表。我确信它们存在于我的 Hive 中,我可以使用 Hive 触摸它们,或者将上面的代码写入一个.py
文件,然后写入spark-submit
这个文件。那么,如何使用 ipython notebook 从我的 Hive 表中读取数据?
scala - 将 Spark RDD 从文本文件转换为 Dataframe 时出现 java.lang.ClassCastException
我使用 docker image “jupyter/all-spark-notebook” 并通过以下命令运行 Spark 容器:
Spark 版本为 2.2,“jupyter/all-spark-notebook”的其他详细信息可以在https://github.com/jupyter/docker-stacks/tree/master/all-spark-notebook找到
在 Jupyter Notebook 中,我遵循了 spark sql 编程指南中的示例代码,如下所示: https ://spark.apache.org/docs/latest/sql-programming-guide.html
当我执行时出现异常
例外情况如下:
请帮忙。非常感谢。
scala - 无法访问 Scala 包中的 AnyRef
我正在使用 apache toree(来自 github 的版本)。当我尝试对 postgresql 表执行查询时,我遇到了间歇性的 scala 编译器错误(当我两次运行相同的单元格时,错误消失并且代码运行正常)。
我正在寻找有关如何调试这些错误的建议。这些错误看起来很奇怪(它们出现在标准输出的笔记本 nog 中)。
代码很简单:从 postgres 表中提取数据集:
我检查了明显的(toree 和 apache spark 都使用 scala 2.11.8,我用 APACHE_SPARK_VERSION=2.2.0 构建了 apache toree,这与我下载的 spark 相同)
作为参考,这是我用来设置 toree 和 spark 的 Dockerfile 的一部分:
scala - Windows 10 上的 Jupyter + Apache Toree 内核错误
使用 Apache Toree - Scala 内核创建 Jupyter notebook 时出现内核错误。这是堆栈跟踪:
有关我的设置的更多详细信息:
我正在使用最新版本的 Anaconda(4.4.0) 运行 Jupyter Notebook。我按照以下命令安装了 Apache Toree:
我的 PATH 中有 Spark 2.2 和 Anaconda(不确定是否需要)。Python 内核笔记本工作正常。
任何帮助将不胜感激!
scala - 如何在 Jupyter 内核中将外部 jar 添加到 Scala
我想将斯坦福 CoreNLP 中的 jar 文件添加到我的 Scala 项目中。在 Jupyter 笔记本的 Scala 内核的上下文中,我正在努力解决这个问题。
我正在为内核使用 Apachee Toree 发行版。单元格内可能有一个简单的单行命令,但我找不到。
任何帮助,将不胜感激!
scala - 向 Apache Toree 添加依赖项在导入时失败
使用 Apache Toree Scala 内核在我的 Jupyter 笔记本中添加依赖项后,例如vegas:
然后,当我尝试从这个 JAR 导入一些东西时,我得到一个很长的堆栈跟踪。在笔记本中,我这样做:
命令行(我启动 Jupyter 的地方)显示了一个很长的堆栈跟踪:
我在 Linux Mint 18.1(基于 Ubuntu 16.04)和 Apache Toree 版本上使用 Jupyter 4.3.0:
我怀疑我得到的错误可能与 Apache Toree 和我拥有的 scala 版本之间的不兼容有关......或者其他什么......关于如何继续进行此操作的任何建议?提前谢谢了 :-)
apache-spark - 强制 apache-toree scala 内核添加来自本地 repo 的依赖项
在 apache-toree scala 内核中,%AddDeps
可以使用魔法来加载依赖项。如何强制它使用本地仓库而不是 mavenCentral?
scala - 使用 spark 2.2 内核运行 jupyter + Apache Toree 0.2.0 生成错误(缺少依赖项'编译器镜像中的对象 scala')
尝试使用 spark 2.2 和 Scala 2.11 在 Jupyter Notebook 上运行 Apache Toree 0.2.0 生成以下错误 [Windows 10]:
不确定到底是什么问题。试图将“settings.usejavacp.value = true”添加到 ScalaInterpreter.scala,没有奏效。以下是我的 run.bat 文件:
任何帮助表示赞赏。我对所有这些东西都很陌生:)