1

我正在使用 Apache Spark ML(通过 Java API)来分析一些自由文本。我想构建一个管道来提取一个特征,该特征指示是否存在任何预配置的术语列表。

CountVectorizer似乎几乎可以做我所追求的,但我想预先指定一个词汇表。到目前为止,我有:

    final Tokenizer tok = new Tokenizer().setInputCol("text").setOutputCol(
            "tokens");
    final StopWordsRemover swr = new StopWordsRemover().setInputCol(
            "tokens").setOutputCol("cleansed_tokens");
    final CountVectorizer cv = new CountVectorizer()
    .setInputCol("cleansed_tokens").setOutputCol("vector");
    final Pipeline pl = new Pipeline().setStages(new PipelineStage[] { tok,
            swr, cv });

有没有办法在 Spark ML 中做到这一点?我需要自己写Transformer吗?

4

0 回答 0