“apache-toree”的相关标签问题

0 投票

0 回答

268 浏览

apache-spark - Apache Toree - 如何将 Spark 内核服务与客户端代码连接起来？

我正在尝试构建一个 Java/Scala 应用程序，它将火花代码提交到远程火花集群。我正在使用 Apache Toree 即 Spark Kernal 来实现这一点。我已成功连接并使用 YARN 上的 Spark 启动了 Apache Toree 服务。

我需要编写一个 Java/Scala 客户端来连接到这个正在运行的 Apache Toree 服务，以便交互式提交 Spark 代码。

要写一个客户端，我指的是项目中的以下示例

https://github.com/apache/incubator-toree/blob/master/client/src/test/scala/examples/DocumentationExamples.scala

现在我的问题是 - 如果 Spark Kernel/Apache Toree 运行在 IP 地址为 10.22.34.10:8042 或http://example.com:8042的边缘节点之一上，我应该在客户端代码中指定这个地址吗？客户端代码与远程 Spark Kernel/Apache Toree 服务建立连接并将 Spark 代码提交给正在运行的 Spark Kernel 执行？

简而言之 - 我们如何在客户端和 Apache Toree 服务/Spark Kernel 之间建立连接，即我的意思是客户端如何知道在哪里提交 spark 代码？- 我无法在示例示例中找到配置（上面的链接）。

PS：在我的用例中，我没有在任何地方使用 Jupyter - 在 Spark-Yarn 上简单地运行 Toree 服务并用 Java/scala 编写客户端来提交/执行 Spark 代码。

如果我遗漏了一些重要的东西作为我的用例的配置，请告诉我。

一个链接/示例到一个工作 Java/Scala 示例代码以连接到可以提交和执行 spark 代码的正在运行的 Toree 服务将受到高度赞赏。谢谢！

apache-spark apache-toree

2017-07-04T07:35:58.400

0 投票

1 回答

307 浏览

scala - 无法从 Jupyter-Toree-Scala %AddDeps HBase 1.3.1

我在 docker 容器中使用这个 jupyter toree 笔记本（https://github.com/jupyter/docker-stacks/tree/master/all-spark-notebook）。

我尝试在笔记本中使用此 %AddDeps 命令添加 HBASE 依赖项：

%AddDeps org.apache.hbase hbase 1.3.1 --transitive --verbose

似乎找到了所有依赖项，但我仍然得到这个输出（空错误？）：

随后我无法调用import org.apache.hadoop.hbase，这意味着该库尚未安装。我真的很感激任何建议，谢谢。

2017-07-24T04:00:45.373

0 投票

0 回答

370 浏览

apache-spark - 为什么无法使用 ipython notebook 从 EMR 上的 Hive 表中读取？

我在亚马逊的 EMR 上使用 ipython notebook，带有 toree 内核。我想从我的 Hive 表中读取一些数据。

它告诉我

sog_l1screen是我的数据库，v1_test_dw_l1_display_orc_dt是表。我确信它们存在于我的 Hive 中，我可以使用 Hive 触摸它们，或者将上面的代码写入一个.py文件，然后写入spark-submit这个文件。那么，如何使用 ipython notebook 从我的 Hive 表中读取数据？

apache-spark hive ipython-notebook amazon-emr apache-toree

2017-08-11T09:14:11.990

0 投票

1 回答

2480 浏览