3

我有一个使用 Maven(作为 jar)构建并使用脚本部署的Spark Streaming应用程序。spark-submit应用项目布局遵循标准目录布局:

myApp
    src
        main
            scala
                com.mycompany.package
                      MyApp.scala
                      DoSomething.scala
                      ...
            resources
                aPerlScript.pl
                 ...
        test
           scala
                com.mycompany.package
                      MyAppTest.scala
                      ...
        target
           ...
pom.xml

DoSomething.scala对象中,我有一个方法(我们称之为doSomething())尝试执行 Perl 脚本—— aPerlScript.pl(从resources文件夹中)——使用scala.sys.process.Process并向脚本传递两个参数(第一个是二进制文件的绝对路径,用作输入,第二个是生成的输出文件的路径/名称)。然后我打电话DoSomething.doSomething()

问题是我无法访问脚本,不能使用绝对路径、相对路径、getClass.getClassLoader.getResource、getClass.getResource,我已经在我的pom.xml. 我的尝试都没有成功。我不知道如何找到我放在 src/main/resources 中的东西。

我将不胜感激。

旁注:

  • 我使用外部流程而不是 Spark 管道,因为在我的工作流程的这一步,我必须将二进制文件作为输入和输出来处理。
  • 我正在使用 Spark-streaming 1.1.0、Scala 2.10.4 和 Java 7。我在 Eclipse (Kepler) 中使用“Maven install”构建 jar
  • 当我使用getClass.getClassLoader.getResource“标准”方法访问资源时,我发现实际的类路径是spark-submit脚本的路径。
4

1 回答 1

2

有几个解决方案。最简单的是使用 Scala 的流程基础设施:

import scala.sys.process._

object RunScript {
  val arg = "some argument"
  val stream = RunScript.getClass.getClassLoader.getResourceAsStream("aPerlScript.pl")
  val ret: Int = (s"/usr/bin/perl - $arg" #< stream).!
}

在这种情况下,ret是进程的返回码,并且进程的任何输出都被定向到stdout.

第二个(更长的)解决方案是将文件aPerlScript.pl从 jar 文件复制到某个临时位置并从那里执行它。此代码段应该包含您需要的大部分内容。

object RunScript {
  // Set up copy destination from the Java temporary directory. This is /tmp on Linux
  val destDir = System.getProperty("java.io.tmpdir") + "/"
  // Get a stream to the script in the resources dir
  val source = Channels.newChannel(RunScript.getClass.getClassLoader.getResourceAsStream("aPerlScript.pl"))
  val fileOut = new File(destDir, "aPerlScript.pl")
  val dest = new FileOutputStream(fileOut)
  // Copy file to temporary directory
  dest.getChannel.transferFrom(source, 0, Long.MaxValue)
  source.close()
  dest.close()
}
// Schedule the file for deletion for when the JVM quits
sys.addShutdownHook {
  new File(destDir, "aPerlScript.pl").delete
}
// Now you can execute the script.

这种方法允许您将本机库捆绑在 JAR 文件中。将它们复制出来允许在运行时为您计划的任何 JNI 恶作剧加载库。

于 2014-10-05T16:14:15.340 回答