我正在使用 Apache Spark ML(通过 Java API)来分析一些自由文本。我想构建一个管道来提取一个特征,该特征指示是否存在任何预配置的术语列表。
CountVectorizer
似乎几乎可以做我所追求的,但我想预先指定一个词汇表。到目前为止,我有:
final Tokenizer tok = new Tokenizer().setInputCol("text").setOutputCol(
"tokens");
final StopWordsRemover swr = new StopWordsRemover().setInputCol(
"tokens").setOutputCol("cleansed_tokens");
final CountVectorizer cv = new CountVectorizer()
.setInputCol("cleansed_tokens").setOutputCol("vector");
final Pipeline pl = new Pipeline().setStages(new PipelineStage[] { tok,
swr, cv });
有没有办法在 Spark ML 中做到这一点?我需要自己写Transformer
吗?