我正在研究一种数据挖掘算法,我需要使用多个单词对字符串进行标记。我有一个单独的文件,其中包含所有停用词。我需要做的是通过任何作为分隔符的单词(停用词)来标记输入字符串。例如。
如果
文件按
原样
包含
停用
词
输入字符串变成
“一个计算机集群由一组松散连接的计算机组成,它们一起工作”
输出变成
计算机集群由
一组
松散连接的计算机
一起工作
递归地检查所有停用词的字符串会非常耗时吗?有什么好的方法吗?
我正在研究一种数据挖掘算法,我需要使用多个单词对字符串进行标记。我有一个单独的文件,其中包含所有停用词。我需要做的是通过任何作为分隔符的单词(停用词)来标记输入字符串。例如。
如果
文件按
原样
包含
停用
词
输入字符串变成
“一个计算机集群由一组松散连接的计算机组成,它们一起工作”
输出变成
计算机集群由
一组
松散连接的计算机
一起工作
递归地检查所有停用词的字符串会非常耗时吗?有什么好的方法吗?