1

java中是否有停用词库?

示例:编写一个 java 程序从文件中读取输入,然后对每个单词中的字符进行排序。完成此操作后,按升序对所有结果单词进行排序,最后是文件中数值的总和。

  • 处理数据时删除特殊字符和停用词
  • 测量执行代码所花费的时间

请提供任何停用词库来解决上述难题

4

4 回答 4

5

Apache Lucene 具有用于各种自然语言的各种停用词集以及用于自然语言处理的大量其他功能。此处提供英文停用词:http: //lucene.apache.org/core/old_versioned_docs/versions/3_0_1/api/all/org/apache/lucene/analysis/standard/StandardAnalyzer.html

于 2012-06-22T06:13:03.690 回答
0

不需要使用库:这可以通过仅使用标准包的几行代码来完成。

  • FileInputStream 读取文件

  • 扫描仪轻松获取您的单词。

  • Double.parseDouble 读取数值

  • Arrays.sort(或任何其他 Collection 实用程序)对数据进行排序。

  • System.currentTimeMillis 来衡量你的操作的持续时间。

如果要过滤停用词,只需将它们放入 HashSet 并在阅读时过滤它们。

于 2012-06-22T06:13:13.320 回答
0

为什么需要停用词库?只需将停用词存储在 a 中File并从中读取,如果在您的文本中找到任何此类词,请将其删除。

另一种方法是保留一个List停用词。检查 aList会相对容易。

你可能想看看这个实现。

于 2012-06-22T06:15:14.367 回答
0

请参阅 Wiki 页面上的外部链接以获取停用词 Google 也有一些实施

于 2012-06-22T06:24:23.060 回答