我正在实现一个搜索应用程序。语料库是大型文本文档。在文件处理过程中,我正在标记所有单词并调用 Porter Stemmer 算法 Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。
Step1 去掉复数和 -ed 或 -ing...
我注意到像“this”这样的词会变成“thi”。
这是算法的正常操作吗?因为我想标记“this”这个词。
我正在实现一个搜索应用程序。语料库是大型文本文档。在文件处理过程中,我正在标记所有单词并调用 Porter Stemmer 算法 Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。
Step1 去掉复数和 -ed 或 -ing...
我注意到像“this”这样的词会变成“thi”。
这是算法的正常操作吗?因为我想标记“this”这个词。