java - 如何对单词列表进行特征提取？

翻译自：https://stackoverflow.com/questions/33300267 2015-10-23T10:32:38.710

259 次

我正在使用 Apache Spark ML（通过 Java API）来分析一些自由文本。我想构建一个管道来提取一个特征，该特征指示是否存在任何预配置的术语列表。

CountVectorizer似乎几乎可以做我所追求的，但我想预先指定一个词汇表。到目前为止，我有：

    final Tokenizer tok = new Tokenizer().setInputCol("text").setOutputCol(
            "tokens");
    final StopWordsRemover swr = new StopWordsRemover().setInputCol(
            "tokens").setOutputCol("cleansed_tokens");
    final CountVectorizer cv = new CountVectorizer()
    .setInputCol("cleansed_tokens").setOutputCol("vector");
    final Pipeline pl = new Pipeline().setStages(new PipelineStage[] { tok,
            swr, cv });

有没有办法在 Spark ML 中做到这一点？我需要自己写Transformer吗？

java - 如何对单词列表进行特征提取？

0 回答 0

Related

Reference