1

我正在实现一个搜索应用程序。语料库是大型文本文档。在文件处理过程中,我正在标记所有单词并调用 Porter Stemmer 算法 Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。

Step1 去掉复数和 -ed 或 -ing...

我注意到像“this”这样的词会变成“thi”。

这是算法的正常操作吗?因为我想标记“this”这个词。

4

1 回答 1

1

根据您的描述,我的直觉是this在 Porter Stemmer 算法中被认为是复数形式并简化为thi.

s在 Porter 的论文中,我没有明确提到以非复数结尾的单词。

http://tartarus.org/~martin/PorterStemmer/def.txt

于 2010-11-06T16:24:28.143 回答