-1

我有近 40,000 个文本文件(平均大小大于 1KB)用于自然语言处理。我想用 Java 对所有这些文件应用一些通用的预处理功能。这些功能包括将所有字符转换为小写,删除所有标点符号,删除所有数字,删除重复的空白(制表符),删除所有预定义的停用词,最后将生成的文件存储在磁盘上。

任何人都可以为我推荐一些有效的 Java 库来完成这类工作。非常感谢 !

4

1 回答 1

1

Mallet 是一个 Java 机器学习库,也能够进行初始文本处理: http: //mallet.cs.umass.edu/import.php

输出可能需要采用 Mallet 的数据格式,但这种格式设计得非常好。

于 2012-06-28T12:29:57.133 回答