问题标签 [spark-packages]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
701 浏览

scala - 在 SBT 生成的胖 JAR 中包含 Spark 包 JAR 文件

spark-daria 项目已上传到 Spark 包,我正在使用sbt-spark-package 插件访问另一个 SBT 项目中的 spark-daria 代码。

sbt assembly我可以在文件中使用以下代码生成的 fat JAR 文件中包含 spark-daria build.sbt

这段代码感觉像是 hack。有没有更好的方法将 spark-daria 包含在 fat JAR 文件中?

注意我想在这里建立一个半胖的 JAR 文件。我希望将 spark-daria 包含在 JAR 文件中,但我不希望 JAR 文件中包含所有 Spark!

0 投票
1 回答
245 浏览

scala - Spark如何从打包的jar中选择类

我正在使用 sbt 程序集插件来创建一个胖 jar。我需要一些 jars,它们是默认 hadoop/spark 的一部分,但具有较新的版本。

我希望 spark worker jvm 更喜欢与我的 fat jar 文件一起打包的版本,而不是默认的 hadoop/spark 发行版。我怎样才能做到这一点?

0 投票
3 回答
5401 浏览

apache-spark - 安装 sparknlp 后,无法导入 sparknlp

以下在 Cloudera CDSW 集群网关上成功运行。

产生这个输出。

但是当我尝试按照John Snow Labs中描述的 pyspark 导入 sparknlp 时...

我明白了:

我需要做什么才能使用 sparknlp?当然,这可以推广到任何 Spark 包。

0 投票
1 回答
120 浏览

apache-spark - SPARK 2.0:火花信息理论特征选择 java.lang.NoSuchMethodError:微风.linalg.DenseMatrix

我正在尝试使用 Spark 的 InfoGain 第三方(https://github.com/sramirez/spark-infotheoretic-feature-selection)包的 MRMR 功能。但是我的集群是 2.0,我得到了这个异常。即使我将所有必需的 Jar 文件添加到 spark 类路径。但它仍然无法正常工作。虽然它可以在本地机器上正常工作,但不能在集群上工作。

例外:

Spark 类路径参考

0 投票
1 回答
124 浏览

azure - 尝试在突触上使用自定义库运行笔记本时,LIBRARY_MANAGEMENT_FAILED 的原因是什么?

今天,当我们尝试运行在 synapse 中定义的笔记本时,我们不断收到错误:“LIBRARY_MANAGEMENT_FAILED”。我们正在使用来自:https ://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-manage-python-packages#storage-account 的方法来管理自定义库,并且它正在工作到目前为止还不错。此外,我们尝试了单独的方法为 spark pool 提供自定义库并尝试使用工作区包,但在加载自定义包 10 分钟后,它超时并失败。

当我们从存储中完全删除 python 文件夹时,sparkpools 会正常运行笔记本。

昨天一切正常。问题也可能不在自定义库中,因为即使使用空的 python 文件夹它也不起作用。

0 投票
1 回答
65 浏览

azure - 无法在 azure synapse analytics sparks pool 上上传工作区包和 requirements.txt 文件

当尝试通过应用上传的requirements.txt文件和自定义包在火花池级别导入 python 库时,我收到以下错误,没有其他详细信息:

处理请求时发生 CreateOrUpdateSparkComputeFailed 错误

几天前它工作得很好。上次上传成功于 2021 年 12 月 3 日。

应用程序作业也SystemReservedJob-LibraryManagement没有被触发。

环境细节:

  • Azure 突触分析
  • Apache Spark 池 - 3.1

我们尝试了以下事情:

  1. 将 vcore 大小增加到 200
  2. 将相同的包上传到不同的订阅资源,它工作正常。
  3. 增加了火花池的大小。

请建议

谢谢