我正在使用 Spark NLP 管道来预处理我的数据。规范器不仅删除了标点符号,还删除了元音变音。
我的代码:
documentAssembler = DocumentAssembler() \
.setInputCol("column") \
.setOutputCol("column_document")\
.setCleanupMode('shrink_full')
tokenizer = Tokenizer() \
.setInputCols(["column_document"]) \
.setOutputCol("column_token") \
.setMinLength(2)\
.setMaxLength(30)
normalizer = Normalizer() \
.setInputCols(["column_token"]) \
.setOutputCol("column_normalized")\
.setCleanupPatterns(["[^\w -]|_|-(?!\w)|(?<!\w)-"])\
.setLowercase(True)\
例子:
Ich esse gerne Äpfel vom Biobauernhof Reutter-Müller, die schmecken besonders gut!
输出:
Ich esse gerne pfel vom Biobauernhof Reutter Mller die schmecken besonders gut
预期输出:
Ich esse gerne Äpfel vom Biobauernhof Reutter-Müller die schmecken besonders gut