scala - spark和mill - 创建一个额外的任务来创建一个过滤的程序集

Question

我想建立一个mill工作，让我可以在本地开发和运行 Spark 工作，SparkSample.run或者使用一个完整的 jar 进行本地测试。在某个时间点，我想将它作为过滤后的程序集（即没有所有与 spark 相关的库，但有所有项目库）发送到具有正在运行的 Spark 上下文的集群。

我目前使用这个build.sc

import mill._, scalalib._
import mill.modules.Assembly

object SparkSample extends ScalaModule {
  def scalaVersion = "2.12.10"
  def scalacOptions =
    Seq("-encoding", "utf-8", "-explaintypes", "-feature", "-deprecation")

  def ivySparkDeps = Agg(
    ivy"org.apache.spark::spark-sql:2.4.5"
      .exclude("org.slf4j" -> "slf4j-log4j12"),
    ivy"org.slf4j:slf4j-api:1.7.16",
    ivy"org.slf4j:slf4j-log4j12:1.7.16"
  )

  def ivyBaseDeps = Agg(
    ivy"com.lihaoyi::upickle:0.9.7"
  )

  // STANDALONE APP
  def ivyDeps = ivyBaseDeps ++ ivySparkDeps

  // REMOTE SPARK CLUSTER
  // def ivyDeps = ivyBaseDeps
  // def compileIvyDeps = ivySparkDeps
  // def assemblyRules =
  //   Assembly.defaultRules ++
  //     Seq(
  //       "scala/.*",
  //       "org.slf4j.*",
  //       "org.apache.log4j.*"
  //     ).map(Assembly.Rule.ExcludePattern.apply)
}

为了运行和构建一个完整的脂肪罐，我保持原样。

为了创建过滤程序集，我ivyDeps在“STANDALONE APP”下注释该行并取消注释“REMOTE SPARK CLUSTER”下的所有内容。

我觉得为新任务编辑构建文件不是很优雅，所以我尝试添加一个单独的任务build.sc

  def assembly2 = T {
    def ivyDeps = ivyBaseDeps
    def compileIvyDeps = ivySparkDeps
    def assemblyRules =
      Assembly.defaultRules ++
        Seq(
          "scala/.*",
          "org.slf4j.*",
          "org.apache.log4j.*"
        ).map(Assembly.Rule.ExcludePattern.apply)
    super.assembly
  }

但是当我运行SparkSample.assembly2它时，它仍然得到一个完整的程序集，而不是一个过滤的程序集。似乎是压倒一切ivyDeps的等。人。在任务中不起作用。

这可能mill吗？

score 0 · Accepted Answer

您不能覆盖任务中的定义。只是在本地定义一些ivyDeps并且compileIvyDeps不会神奇地super.assembly使用它们。

当然，您可以通过查看super.assembly中定义的方式来创建该任务JavaModule，但您最终会复制和调整更多目标（upstreamAssembly、upstreamAssemblyClasspath、transitiveLocalClasspath等）并使您的构建文件难以阅读。

更好的方法是将较轻的依赖项和组装规则设为默认值，并将独立 JAR 的创建移动到子模块中。

import mill._, scalalib._
import mill.modules.Assembly

object SparkSample extends ScalaModule { outer =>
  def scalaVersion = "2.12.10"
  def scalacOptions =
    Seq("-encoding", "utf-8", "-explaintypes", "-feature", "-deprecation")

  def ivySparkDeps = Agg(
    ivy"org.apache.spark::spark-sql:2.4.5"
      .exclude("org.slf4j" -> "slf4j-log4j12"),
    ivy"org.slf4j:slf4j-api:1.7.16",
    ivy"org.slf4j:slf4j-log4j12:1.7.16"
  )

  def ivyDeps = Agg(
    ivy"com.lihaoyi::upickle:0.9.7"
  )

  def compileIvyDeps = ivySparkDeps

  def assemblyRules =
    Assembly.defaultRules ++
      Seq(
        "scala/.*",
        "org.slf4j.*",
        "org.apache.log4j.*"
      ).map(Assembly.Rule.ExcludePattern.apply)

  object standalone extends ScalaModule {
    def scalaVersion = outer.scalaVersion
    def moduleDeps = Seq(outer)
    def ivyDeps = outer.ivySparkDeps
  }
}

创建 Spark 集群 JAR 运行：mill SparkSample.assembly

创建一个独立的 JAR 运行：mill SparkSample.standalone.assembly

要创建两者，您只需运行：mill __.assembly

scala - spark和mill - 创建一个额外的任务来创建一个过滤的程序集

1 回答 1

Related

Reference