问题标签 [spark-notebook]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
102 浏览

javascript - 禁用 Zeppelin 笔记本上的右键单击

我在仪表板上使用 Zeppelin 0.6.0 笔记本。

我将笔记本嵌入到 iframe 中,这是一个简单的 HTML 页面。

我想禁用我的仪表板上的右键单击。

我可以在 iframe 区域外禁用右键单击,但不能在 iframe 区域内禁用它。

我尝试了谷歌上所有可能的代码,比如:

ETC...

如何禁用右键单击笔记本?

当我读到它时:

“如果 iframe 内的页面位于同一个域中,这是可能的。而如果您访问 iframe 内不同域的页面,则不建议这样做。”

有人遇到过这种情况并找到任何解决方案吗?

除了 iframe,我如何将它嵌入到我的仪表板中?

0 投票
1 回答
827 浏览

scala - 重新提交停止的应用程序后引发异常

我正在使用带有选项的动态分配运行 Spark 作业(来自 Spark 笔记本)

(注意:我不确定这个问题是否是由 dynamicAllocation 引起的)

我使用的是 Spark 1.6.1 版。

如果我取消正在运行的作业/应用程序(通过按下笔记本单元格上的取消按钮,或者通过关闭笔记本服务器和应用程序)并在不久之后(几分钟)重新启动同一个应用程序,我经常会得到以下例外:

使用 Yarn ResourceManager,我在重新提交作业之前验证了旧作业不再运行。我仍然认为问题的出现是因为被杀死的工作尚未完全清理并干扰新启动的工作?

有人遇到过同样的问题,知道如何解决吗?

0 投票
1 回答
1793 浏览

javascript - 带有 zeppelin 笔记本的动态交互式仪表板

我想要一个更具交互性的仪表板。就像从数据库中读取数据,将其提供给选择框,选择框的 onchange 发送值并运行查询。

我想在选定的值上使用 zeppelin bcz 来实现这一点,我必须显示分析。

实现这一目标的方法是什么,这是否可以通过 zeppelin 实现。

我尝试使用选择框,但我无法保存所选值并将其发送到下一个查询并执行它。就像是

我不知道如何存储此参数并将所选参数从一个段落发送到另一个段落

或者像从 UI 处理所有这些事情,让我们说 javascript html 并将选定的值作为参数发送到 zeppelin?使用网址时这样的事情

并在我的 zeppelin 段落中使用这些 param1=value1¶m2=value2?技术上可行与否我不明白。请帮助我如何实现这一目标?提前致谢 :)

0 投票
1 回答
165 浏览

pyspark - 调用 jdbc 时发生 bluemix pyspark 错误

我在 Bluemix 的 Spark 服务中使用 pySpark 来转换我的数据中的某些内容,然后将其写入 DashDB,也在 Bluemix 中。但是当我尝试加载数据时,我收到以下错误:

Py4JJavaError:调用 o111.jdbc 时出错。:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 4.0 中的任务 0 失败 10 次,最近一次失败:阶段 4.0 中丢失任务 0.9(TID 23,yp-spark-dal09-env5-0045): com.ibm.db2.jcc.am.BatchUpdateException:[jcc][t4][102][10040][4.19.26] 批处理失败。该批次已提交,但该批次的单个成员至少发生了一次异常。使用 getNextException() 检索特定批处理元素的异常。错误代码=-4229,SQLSTATE=null

我已经尝试创建一个新的 DashDB,但我收到了同样的错误。然后,我尝试创建另一个笔记本,但它也不起作用。我试图停止所有内核并每次只运行一个内核,但不起作用。

我尝试从数据框中写入数据的所有笔记本都收到相同的错误,但在相同的情况下,数据已加载,而在其他情况下则没有。

这是我用来编写的代码:

0 投票
0 回答
96 浏览

python - 如何进行简单的表格读取,复制整行并将其保存为新表格?

我是 DataBricks 和 Apache Spark 的新手。我想为我的笔记本使用 Python。

我正在使用数据块,并且可以确认我已创建:

  • 集群(测试)以及附加的基于 python 的笔记本(测试笔记本)
  • JSON 文件中的表 (employee_info)
  • 笔记本。

我拥有的示例表来自我作为测试文件上传的 JSON,如下所示:

如果我已经上传了这个表,我该怎么做(假设我使用 Python 作为 Notebook):

  • 访问表
  • 复制一整行
  • 将具有重复列的表另存为新表

谢谢。

0 投票
0 回答
879 浏览

apache-spark - Zeppelin 不适用于外部火花 - 无法获取或更新进度

我已经安装了 Zeppelin 0.6.2 并试图让它与外部 spark 集群 (2.0.1) 一起工作。

我的解释器设置如下:

args
master 121.201.~~.1~~:8080 spark.app.name Zeppelin spark.cores.max spark.executor.memory
zeppelin.R.cmd R zeppelin.R.image.width

但是,当我尝试使用 spark 代码时,出现错误:

INFO [2016-12-16 15:30:28,236] ({pool-1-thread-16} NotebookServer.java[afterStatusChange]:1150) - 作业 20161215-231306_1684928197 已完成 INFO [2016-12-16 15:30: 28,313] ({pool-1-thread-16} SchedulerFactory.java[jobFinished]:137) - Job paragraph_1481814786923_-1347555476 由调度程序 org.apache.zeppelin.interpreter.remote.RemoteInterpretershared_session1405394754 完成 错误 [2016-12-16 15:30 :30,203] ({Thread-83} JobProgressPoller.java[run]:54) - 无法获取或更新进度 org.apache.zeppelin.interpreter.InterpreterException:org.apache.thrift.transport.TTransportException 在 org.apache.zeppelin .interpreter.remote.RemoteInterpreter.getProgress(RemoteInterpreter.java:373) at org.apache.zeppelin.interpreter.LazyOpenInterpreter.getProgress(LazyOpenInterpreter.java:111) at org.apache.zeppelin.notebook.Paragraph.progress(Paragraph.java:237) at org.apache.zeppelin.scheduler.JobProgressPoller.run(JobProgressPoller.java:51) 引起:org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport. java:132) 在 org.apache.thrift.transport.TTransport.readAll(TTransport.java:86) 在 org.apache.thrift.protocol.TBinaryProtocol.readAll(TBinaryProtocol.java:429) 在 org.apache.thrift.protocol .TBinaryProtocol.readI32(TBinaryProtocol.java:318) 在 org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol.java:219) 在 org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:69) 在 org. org.apache.zeppelin.interpreter.thrift 上的 apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.recv_getProgress(RemoteInterpreterService.java:296)。RemoteInterpreterService$Client.getProgress(RemoteInterpreterService.java:281) at org.apache.zeppelin.interpreter.remote.RemoteInterpreter.getProgress(RemoteInterpreter.java:370) ... 还有 3 个

0 投票
0 回答
728 浏览

apache-spark - 想在 Jupyter Notebook 中运行 Spark(scala) 内核。获取 OSError: [WinError 193] %1 不是有效的 Win32 应用程序

我遵循了此链接中给出的程序:https ://github.com/ibm-et/spark-kernel/wiki/Guide-to-Integrating-the-Spark-Kernel-with-Jupyter

我想在 Windows 10 上运行它。

我安装了 Anaconda 和 Spark。并且还为两者设置了环境路径。这是我的 kernel.json 文件:

它在内核列表中可用。但是从笔记本中选择 Spark 内核时显示错误

可用内核:

pyspark C:\Users\RDX.ipython\kernels\pyspark
python3 c:\users\rdx\anaconda3\lib\site-packages\ipykernel\resources
spark C:\ProgramData\jupyter\kernels\spark

0 投票
1 回答
634 浏览

scala - 单元格宽度 Jupyter 笔记本 - Apache Toree - Scala

如何使用 Apache Toree - Scala 内核增加 Jupyter 笔记本的单元格宽度?

通常

确实不行。

0 投票
3 回答
5180 浏览

scala - 如何在 Spark Notebook 中导入库

magellan-1.0.4-s_2.11在 spark 笔记本中导入时遇到问题。我已经从https://spark-packages.org/package/harsha2010/magellan下载了 jar,并尝试将其放入SPARK_HOME/bin/spark-shell --packages harsha2010:magellan:1.0.4-s_2.11binStart of Customized Settings文件夹的 spark-notebook 文件部分。

这是我的进口

而我的错误...

然后,我尝试像其他任何库一样导入新库,方法是将其放入main script类似的位置:

这没有用,我只能挠头想知道我做错了什么。如何将 magellan 等库导入 spark notebook?

0 投票
5 回答
93862 浏览

json - 什么是 SparkSession 配置选项

我正在尝试使用 SparkSession 将文件的 JSON 数据转换为带有 Spark Notebook 的 RDD。我已经有了 JSON 文件。

我对 spark 很陌生,不知道用什么来config.key.hereconfigValueHere.