我想截断语料库中的所有标记,使其最大长度为 5 个字符。有没有办法在 MALLET 中设置 --token-regex 导入选项来完成这个?我目前用于导入文档的代码是这样的:
mallet-2.0.7/bin/mallet import-dir --input mallet-2.0.7/data/journals/ --output mallet-2.0.7/tmp/topic-input-journals.mallet --keep-sequence --remove-stopwords --stoplist-file mallet-2.0.7/stoplists/tr.txt --token-regex '\p{L}[\p{L}\p{P}]*\p{L}'
如果这在 MALLET 导入命令中是不可能的,我将不胜感激有关如何在 R 中执行相同操作的建议。