3

我正在尝试使用 DCOS cli 在 mesos 上启动 spark 流式传输作业。我可以开始工作了。我的程序需要一个配置文件作为 cli 参数传递。如何使用dcos spark run --submit-args实现这一目标?

我试过 --files http://server/path/to//file希望它会下载文件,但没有奏效。驱动程序启动但由于缺少配置文件而失败。

我还尝试将 jar 和配置文件卷成 tar 并提交。我可以在 Mesos 日志中看到 tar 已获取并解压缩。在工作目录中可以看到 config 和 jar 文件。但是作业因 ClassNotFoundException 而失败。我怀疑 spark-submit 的启动方式有些不对劲。

dcos spark run --submit-args="--supervise --deploy-mode cluster --class package.name.classname http://file-server:8000/Streaming.tar.gz Streaming.conf"

关于如何进行的任何提示?另外,我可以在哪个日志文件中看到 DCOS 使用的底层 spark-submit 命令?

4

2 回答 2

4

这是您应该启动以使其工作的命令示例:

dcos spark run --submit-args='--conf spark.mesos.uris=https://s3-us-west-2.amazonaws.com/andrey-so-36323287/pi.conf --class JavaSparkPiConf https://s3-us-west-2.amazonaws.com/andrey-so-36323287/sparkPi_without_config_file.jar /mnt/mesos/sandbox/pi.conf'

在哪里

--conf spark.mesos.uris=...Mesos 启动驱动程序或执行程序时要下载到沙箱的 URI 的逗号分隔列表。这适用于粗粒度和细粒度模式。

/mnt/mesos/sandbox/pi.conf主类作为第 0 个参数接收的下载文件的路径(请参见下面的代码片段)。/mnt/mesos/sandbox/是一个容器内的标准路径,它被映射到一个对应的 mesos-task 沙箱。

public final class JavaSparkPiConf {

  public static void main(String[] args) throws Exception {
    SparkConf sparkConf = new SparkConf().setAppName("JavaSparkPi");
    JavaSparkContext jsc = new JavaSparkContext(sparkConf);

    Scanner scanner = new Scanner(new FileInputStream(args[0]));
    int slices;
    if (scanner.hasNextInt()) {
      slices = scanner.nextInt();
    } else {
      slices = 2;
    }
    int n = 100000 * slices;
    List<Integer> l = new ArrayList<>(n);
    for (int i = 0; i < n; i++) {
      l.add(i);
    }

    JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);

    int count = dataSet.map(new Function<Integer, Integer>() {
      @Override
      public Integer call(Integer integer) {
        double x = Math.random() * 2 - 1;
        double y = Math.random() * 2 - 1;
        return (x * x + y * y < 1) ? 1 : 0;
      }
    }).reduce(new Function2<Integer, Integer, Integer>() {
      @Override
      public Integer call(Integer integer, Integer integer2) {
        return integer + integer2;
      }
    });

    System.out.println("Pi is roughly " + 4.0 * count / n);

    jsc.stop();
  }
}
于 2016-04-04T15:14:06.887 回答
2

Streaming.conf只是一个将传递给您的驱动程序的字符串。您的司机必须能够看到它。最简单的方法是将其放置在可访问的位置,指定您希望通过spark.mesos.uris[1] 将其下载到沙箱。您可以交替编写应用程序以支持从远程位置读取,然后在 CLI 上传递该位置。

--files用于将文件放置在执行程序中,但您试图将文件传递给驱动程序,所以这不起作用。

[1] http://spark.apache.org/docs/latest/running-on-mesos.html

迈克尔·古梅尔特
中间层

于 2016-03-31T17:10:02.510 回答