java中是否有停用词库?
示例:编写一个 java 程序从文件中读取输入,然后对每个单词中的字符进行排序。完成此操作后,按升序对所有结果单词进行排序,最后是文件中数值的总和。
- 处理数据时删除特殊字符和停用词
- 测量执行代码所花费的时间
请提供任何停用词库来解决上述难题
java中是否有停用词库?
示例:编写一个 java 程序从文件中读取输入,然后对每个单词中的字符进行排序。完成此操作后,按升序对所有结果单词进行排序,最后是文件中数值的总和。
请提供任何停用词库来解决上述难题
Apache Lucene 具有用于各种自然语言的各种停用词集以及用于自然语言处理的大量其他功能。此处提供英文停用词:http: //lucene.apache.org/core/old_versioned_docs/versions/3_0_1/api/all/org/apache/lucene/analysis/standard/StandardAnalyzer.html
不需要使用库:这可以通过仅使用标准包的几行代码来完成。
FileInputStream 读取文件
扫描仪轻松获取您的单词。
Double.parseDouble 读取数值
Arrays.sort(或任何其他 Collection 实用程序)对数据进行排序。
System.currentTimeMillis 来衡量你的操作的持续时间。
如果要过滤停用词,只需将它们放入 HashSet 并在阅读时过滤它们。
为什么需要停用词库?只需将停用词存储在 a 中File
并从中读取,如果在您的文本中找到任何此类词,请将其删除。
另一种方法是保留一个List
停用词。检查 aList
会相对容易。
你可能想看看这个实现。