java - 如何让 Spark Streaming 在单元测试中计算文件中的单词？

Question

我已经成功地在 Java 中构建了一个非常简单的 Spark Streaming 应用程序，它基于Scala 中的 HdfsCount 示例。

当我将此应用程序提交到本地 Spark 时，它会等待将文件写入给定目录，当我创建该文件时，它会成功打印字数。我按 Ctrl+C 终止应用程序。

现在我尝试为这个功能创建一个非常基本的单元测试，但在测试中我无法打印相同的信息，即字数。

我错过了什么？

下面是单元测试文件，之后我还包含了显示 countWords 方法的代码片段：

StarterAppTest.java

import com.google.common.io.Files;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;


import org.junit.*;

import java.io.*;

public class StarterAppTest {

  JavaStreamingContext ssc;
  File tempDir;

  @Before
  public void setUp() {
    ssc = new JavaStreamingContext("local", "test", new Duration(3000));
    tempDir = Files.createTempDir();
    tempDir.deleteOnExit();
  }

  @After
  public void tearDown() {
    ssc.stop();
    ssc = null;
  }

  @Test
  public void testInitialization() {
    Assert.assertNotNull(ssc.sc());
  }


  @Test
  public void testCountWords() {

    StarterApp starterApp = new StarterApp();

    try {
      JavaDStream<String> lines = ssc.textFileStream(tempDir.getAbsolutePath());
      JavaPairDStream<String, Integer> wordCounts = starterApp.countWords(lines);

      ssc.start();

      File tmpFile = new File(tempDir.getAbsolutePath(), "tmp.txt");
      PrintWriter writer = new PrintWriter(tmpFile, "UTF-8");
      writer.println("8-Dec-2014: Emre Emre Emre Ergin Ergin Ergin");
      writer.close();

      System.err.println("===== Word Counts =======");
      wordCounts.print();
      System.err.println("===== Word Counts =======");

    } catch (FileNotFoundException e) {
      e.printStackTrace();
    } catch (UnsupportedEncodingException e) {
      e.printStackTrace();
    }


    Assert.assertTrue(true);

  }

}

该测试编译并开始运行，Spark Streaming 在控制台上打印了很多诊断消息，但调用wordCounts.print()不打印任何内容，而在 StarterApp.java 本身中，它们会打印。

我也尝试过添加ssc.awaitTermination();，ssc.start()但在这方面没有任何改变。之后，我还尝试在此 Spark Streaming 应用程序正在检查的目录中手动创建一个新文件，但这次它给出了错误。

为了完整起见，下面是 wordCounts 方法：

public JavaPairDStream<String, Integer> countWords(JavaDStream<String> lines) {
    JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
      @Override
      public Iterable<String> call(String x) { return Lists.newArrayList(SPACE.split(x)); }
    });

    JavaPairDStream<String, Integer> wordCounts = words.mapToPair(
            new PairFunction<String, String, Integer>() {
              @Override
              public Tuple2<String, Integer> call(String s) { return new Tuple2<>(s, 1); }
            }).reduceByKey((i1, i2) -> i1 + i2);

    return wordCounts;
  }

score 2 · Accepted Answer

几点建议：

为 SparkStreaming 上下文提供至少 2 个内核。1 用于 Streaming，1 用于 Spark 处理。“本地”->“本地[2]”
您的流式传输间隔为 3000 毫秒，因此您需要在程序中的某个地方等待 - 至少 - 等待输出的时间。
Spark Streaming 需要一些时间来设置监听器。该文件在发布后立即创建ssc.start。不保证文件系统侦听器已经到位。sleep(xx)之后我会做一些ssc.start

在流媒体中，一切都与正确的时机有关。

java - 如何让 Spark Streaming 在单元测试中计算文件中的单词？

StarterAppTest.java

1 回答 1

Related

Reference