apache-spark - Spark DataFrame 转换 - 删除少于 3 个字母的单词

Question

我正在使用我RegexTokenizer的数据集进行模型构建。同时我想删除少于 3 个字母的单词。还有和。我怎样才能做到这一点？这是我的代码：` StopWordsRemovertokenizehttphttps

val trainDF = sqlContext.read.jdbc(url, table, prop)

 // Tokenize
 val tokenizer = new RegexTokenizer()
    .setGaps(false)
    .setPattern("\\p{L}+")
    .setInputCol("posttext")
    .setOutputCol("words")
 val tokenizedDF = tokenizer.transform(trainDF)

 val filterer = new StopWordsRemover()
  .setCaseSensitive(false)
  .setInputCol("words")
  .setOutputCol("tokens")

 val filteredDF = filterer.transform(tokenizedDF)`

score 1 · Accepted Answer

1

在 RegexTokenizer 中找到 setMinTokenLength(3)

于 2015-12-22T00:11:02.637 回答

apache-spark - Spark DataFrame 转换 - 删除少于 3 个字母的单词

1 回答 1

Related

Reference