2

我目前正在使用 PorterStemmer 来识别派生词。但是,我遇到了一个问题,这些词的含义不同但似乎有。例如:
Marketand Marketing
Wineand Winning
etc..
有不同的含义,但 PorterStemmer 将它们标识为相同。

哪些开放工具能够克服这些问题?带有极端案例的字典?更高级的词干分析器?

最好是可以通过 PHP 轻松访问的东西。

4

1 回答 1

3

这是词干分析器的一个已知问题,因为它们在没有任何语言知识的情况下以语音为基础进行操作。你需要一个词形还原器。我主要使用基于 Java 的 Stanford CoreNLP,但我确信 PHP 中一定有一些东西。

于 2013-01-07T11:03:37.023 回答