4

我正在研究一种数据挖掘算法,我需要使用多个单词对字符串进行标记。我有一个单独的文件,其中包含所有停用词。我需要做的是通过任何作为分隔符的单词(停用词)来标记输入字符串。例如。 如果
文件按 原样 包含
停用 词



输入字符串变成
“一个计算机集群由一组松散连接的计算机组成,它们一起工作”
输出变成
计算机集群由
一组
松散连接的计算机
一起工作

递归地检查所有停用词的字符串会非常耗时吗?有什么好的方法吗?

4

1 回答 1

7

构造形式的正则表达式

delim1|delim2|delim3

然后使用String'split()方法通过任何分隔符分割文本。

为了构造正则表达式,请阅读每个分隔符,并将其传递给,Pattern.quote然后再附加到您构建的正则表达式。这将使您的分隔符也可以使用正则表达式元字符。

于 2012-11-04T21:44:56.167 回答