问题标签 [spark-packages]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

6 问题

0 投票

1 回答

701 浏览

scala - 在 SBT 生成的胖 JAR 中包含 Spark 包 JAR 文件

spark-daria 项目已上传到 Spark 包，我正在使用sbt-spark-package 插件访问另一个 SBT 项目中的 spark-daria 代码。

sbt assembly我可以在文件中使用以下代码生成的 fat JAR 文件中包含 spark-daria build.sbt。

这段代码感觉像是 hack。有没有更好的方法将 spark-daria 包含在 fat JAR 文件中？

注意我想在这里建立一个半胖的 JAR 文件。我希望将 spark-daria 包含在 JAR 文件中，但我不希望 JAR 文件中包含所有 Spark！

2017-05-17T23:39:25.887

0 投票

1 回答

245 浏览

scala - Spark如何从打包的jar中选择类

我正在使用 sbt 程序集插件来创建一个胖 jar。我需要一些 jars，它们是默认 hadoop/spark 的一部分，但具有较新的版本。

我希望 spark worker jvm 更喜欢与我的 fat jar 文件一起打包的版本，而不是默认的 hadoop/spark 发行版。我怎样才能做到这一点？

scala apache-spark sbt spark-packages

2017-09-18T08:19:57.347

0 投票

3 回答

5401 浏览

apache-spark - 安装 sparknlp 后，无法导入 sparknlp

以下在 Cloudera CDSW 集群网关上成功运行。

产生这个输出。

但是当我尝试按照John Snow Labs中描述的 pyspark 导入 sparknlp 时...

我明白了：

我需要做什么才能使用 sparknlp？当然，这可以推广到任何 Spark 包。

apache-spark pyspark apache-spark-mllib johnsnowlabs-spark-nlp spark-packages

2017-12-07T22:52:38.330

0 投票

1 回答

120 浏览

apache-spark - SPARK 2.0：火花信息理论特征选择 java.lang.NoSuchMethodError：微风.linalg.DenseMatrix

我正在尝试使用 Spark 的 InfoGain 第三方（https://github.com/sramirez/spark-infotheoretic-feature-selection）包的 MRMR 功能。但是我的集群是 2.0，我得到了这个异常。即使我将所有必需的 Jar 文件添加到 spark 类路径。但它仍然无法正常工作。虽然它可以在本地机器上正常工作，但不能在集群上工作。

例外：

Spark 类路径参考

apache-spark hadoop hadoop-yarn feature-selection spark-packages

2018-03-28T23:33:05.993

0 投票

1 回答

124 浏览

azure - 尝试在突触上使用自定义库运行笔记本时，LIBRARY_MANAGEMENT_FAILED 的原因是什么？

今天，当我们尝试运行在 synapse 中定义的笔记本时，我们不断收到错误：“LIBRARY_MANAGEMENT_FAILED”。我们正在使用来自：https ://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-manage-python-packages#storage-account 的方法来管理自定义库，并且它正在工作到目前为止还不错。此外，我们尝试了单独的方法为 spark pool 提供自定义库并尝试使用工作区包，但在加载自定义包 10 分钟后，它超时并失败。

当我们从存储中完全删除 python 文件夹时，sparkpools 会正常运行笔记本。

昨天一切正常。问题也可能不在自定义库中，因为即使使用空的 python 文件夹它也不起作用。

azure azure-synapse spark-packages

2021-08-11T15:17:40.737

0 投票

1 回答

65 浏览

azure - 无法在 azure synapse analytics sparks pool 上上传工作区包和 requirements.txt 文件

当尝试通过应用上传的requirements.txt文件和自定义包在火花池级别导入 python 库时，我收到以下错误，没有其他详细信息：

处理请求时发生 CreateOrUpdateSparkComputeFailed 错误

几天前它工作得很好。上次上传成功于 2021 年 12 月 3 日。

应用程序作业也SystemReservedJob-LibraryManagement没有被触发。

环境细节：

Azure 突触分析
Apache Spark 池 - 3.1

我们尝试了以下事情：

将 vcore 大小增加到 200
将相同的包上传到不同的订阅资源，它工作正常。
增加了火花池的大小。

请建议

谢谢

azure apache-spark libraries azure-synapse spark-packages

2021-12-22T13:34:52.147

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-packages]

scala - 在 SBT 生成的胖 JAR 中包含 Spark 包 JAR 文件

scala - Spark如何从打包的jar中选择类

apache-spark - 安装 sparknlp 后，无法导入 sparknlp

apache-spark - SPARK 2.0：火花信息理论特征选择 java.lang.NoSuchMethodError：微风.linalg.DenseMatrix

azure - 尝试在突触上使用自定义库运行笔记本时，LIBRARY_MANAGEMENT_FAILED 的原因是什么？

azure - 无法在 azure synapse analytics sparks pool 上上传工作区包和 requirements.txt 文件

环境细节：

Reference