问题标签 [spark-packages]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 在 SBT 生成的胖 JAR 中包含 Spark 包 JAR 文件
spark-daria 项目已上传到 Spark 包,我正在使用sbt-spark-package 插件访问另一个 SBT 项目中的 spark-daria 代码。
sbt assembly
我可以在文件中使用以下代码生成的 fat JAR 文件中包含 spark-daria build.sbt
。
这段代码感觉像是 hack。有没有更好的方法将 spark-daria 包含在 fat JAR 文件中?
注意我想在这里建立一个半胖的 JAR 文件。我希望将 spark-daria 包含在 JAR 文件中,但我不希望 JAR 文件中包含所有 Spark!
scala - Spark如何从打包的jar中选择类
我正在使用 sbt 程序集插件来创建一个胖 jar。我需要一些 jars,它们是默认 hadoop/spark 的一部分,但具有较新的版本。
我希望 spark worker jvm 更喜欢与我的 fat jar 文件一起打包的版本,而不是默认的 hadoop/spark 发行版。我怎样才能做到这一点?
apache-spark - 安装 sparknlp 后,无法导入 sparknlp
以下在 Cloudera CDSW 集群网关上成功运行。
产生这个输出。
但是当我尝试按照John Snow Labs中描述的 pyspark 导入 sparknlp 时...
我明白了:
我需要做什么才能使用 sparknlp?当然,这可以推广到任何 Spark 包。
apache-spark - SPARK 2.0:火花信息理论特征选择 java.lang.NoSuchMethodError:微风.linalg.DenseMatrix
我正在尝试使用 Spark 的 InfoGain 第三方(https://github.com/sramirez/spark-infotheoretic-feature-selection)包的 MRMR 功能。但是我的集群是 2.0,我得到了这个异常。即使我将所有必需的 Jar 文件添加到 spark 类路径。但它仍然无法正常工作。虽然它可以在本地机器上正常工作,但不能在集群上工作。
例外:
azure - 尝试在突触上使用自定义库运行笔记本时,LIBRARY_MANAGEMENT_FAILED 的原因是什么?
今天,当我们尝试运行在 synapse 中定义的笔记本时,我们不断收到错误:“LIBRARY_MANAGEMENT_FAILED”。我们正在使用来自:https ://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-manage-python-packages#storage-account 的方法来管理自定义库,并且它正在工作到目前为止还不错。此外,我们尝试了单独的方法为 spark pool 提供自定义库并尝试使用工作区包,但在加载自定义包 10 分钟后,它超时并失败。
当我们从存储中完全删除 python 文件夹时,sparkpools 会正常运行笔记本。
昨天一切正常。问题也可能不在自定义库中,因为即使使用空的 python 文件夹它也不起作用。
azure - 无法在 azure synapse analytics sparks pool 上上传工作区包和 requirements.txt 文件
当尝试通过应用上传的requirements.txt
文件和自定义包在火花池级别导入 python 库时,我收到以下错误,没有其他详细信息:
处理请求时发生 CreateOrUpdateSparkComputeFailed 错误
几天前它工作得很好。上次上传成功于 2021 年 12 月 3 日。
应用程序作业也SystemReservedJob-LibraryManagement
没有被触发。
环境细节:
- Azure 突触分析
- Apache Spark 池 - 3.1
我们尝试了以下事情:
- 将 vcore 大小增加到 200
- 将相同的包上传到不同的订阅资源,它工作正常。
- 增加了火花池的大小。
请建议
谢谢