“spark-notebook”的相关标签问题

0 投票

2 回答

9196 浏览

python - 如何将一个数据块笔记本导入另一个？

我在 Azure Databricks 中有一个 python 笔记本 A，其 import 语句如下：

我在笔记本 A 中导入了另一个笔记本 xyz，如上面的代码所示。当我运行笔记本 A 时，它会引发以下错误：

两个笔记本都在同一个工作区目录中。任何人都可以帮助解决这个问题吗？

2019-04-15T08:30:42.650

0 投票

2 回答

2241 浏览

databricks - 撤消数据块笔记本中已删除的单元格？

当我们删除命令单元格时，有什么方法可以恢复 databricks 笔记本中的命令单元格？我在数据块中没有看到任何撤消已删除单元格的建议。数据块版本是 v2.99。

databricks spark-notebook

2019-06-25T18:21:38.493

0 投票

3 回答

3577 浏览

pyspark - 如何在第一行显示我现有的列名而不是 '_c0'、'_c1'、'_c2'、'_c3'、'_c4'？

数据框显示 _c0,_c1 而不是我在第一行中的原始列名。
我想显示我的列名，它位于我的 CSV 的第一行。

pyspark apache-spark-sql azure-databricks spark-notebook

2019-08-01T12:26:30.423

0 投票

2 回答

3950 浏览

pyspark - 基于某些条件在 databricks 笔记本中执行 cmd 单元

我在 databricks 中有一个 python 3.5 笔记本。我需要根据某些条件执行 databricks 笔记本单元格。我没有看到任何开箱即用的功能。

我尝试使用以下代码创建一个 python egg 并将其安装在 databricks 集群中。

但是，当我尝试使用 %load_ext skip_cell 使用扩展加载它时，它会抛出一个错误，说“该模块不是 IPython 模块”。任何帮助或建议表示赞赏。谢谢。

pyspark apache-spark-sql databricks azure-databricks spark-notebook

2019-08-20T15:35:37.160

0 投票

1 回答

1087 浏览

amazon-web-services - 如何在 AWS EMR 笔记本中加载库/ Maven 依赖项

我正在使用 AWS 笔记本。我可以在没有第三方库依赖的情况下运行正常的基于 scala 的 spark 作业。但我想加载一些常见的库，如 typesafe-config、mysql-connector 等。

如何在 AWS 上的 scala spark notebook 中添加这些库依赖项？

我尝试在笔记本的第一个单元格中添加这些片段，但都没有奏效

也

都抛出了错误

控制台>：29：错误：对象 ConfigFactor 不是包 com.typesafe.config 导入 com.typesafe.config.ConfigFactor 的成员

当我尝试导入类型安全配置时

我还尝试在笔记本元数据中添加 Maven 坐标为

并得到

错误：对象类型安全不是包 com 导入 com.typesafe.config.ConfigFactor 的成员

amazon-web-services amazon-emr spark-notebook

2019-11-10T19:12:23.387

0 投票

0 回答

351 浏览

scala - 错误：spark scala：java.nio.channels.ClosedByInterruptException -> 无法对数据集执行 show() 或 count()

我正在读取 Databricks 笔记本中的数据框：

这给出了一个数据集：

我想对其进行某些操作，但是一旦我执行 count() 或 show() 或 write，我就会收到一些错误：

data.cache().toDF().count()->

有谁知道这些错误是什么以及如何解决？

谢谢

scala apache-spark dataset databricks spark-notebook

2019-11-19T00:10:08.737

0 投票

1 回答

1087 浏览

scala - 如何优雅地停止笔记本流式传输作业？

我有一个流应用程序正在运行到 Databricks 笔记本作业 ( https://docs.databricks.com/jobs.html )。我希望能够使用该stop()方法StreamingQuery返回的类的方法优雅地停止流式传输作业stream.start()。这当然需要访问所提到的流实例或访问正在运行的作业本身的上下文。在第二种情况下，代码可能如下所示：

spark.sqlContext.streams.get("some_streaming_uuid").stop()

上面的代码应该从不同的笔记本作业中执行，stop_streaming_job尽管我无法找到访问作业上下文和执行上述 scala 代码的方法，但我们可以调用它。有什么方法可以通过数据块笔记本实现这一目标吗？

scala apache-spark spark-streaming databricks spark-notebook

2019-12-12T18:22:04.793

0 投票

1 回答

853 浏览