4

我正在阅读一个词干,这是将单词匹配到一个共同的根的问题,并且似乎是搜索引擎中的一个标准问题。
当我第一次想到这个问题时,我认为这是最长公共子串问题应用于N单词的经典应用。
例如,对于单词来说{computation, compute, computers},最长的公共子串是compute,这是词干/词根。
但我读到这不是问题的解决方案。实际上,这似乎甚至不是一个考虑因素,其他方法(后缀去除、随机等)是标准解决方案。

我的问题是:为什么最长的公共子字符串N不能解决这个问题?

4

1 回答 1

2

在许多语言中,语言词干通常不是公共子串。例如,动词“to be”在许多语言中是非常不规则的。

即使是英文名词,也有例外的例子,例如 { index, indices, indices }。您真的想使用“索引”作为词干;如果您使用更短的“ind”作为词干,则会发生冲突,在这种情况下,独立政治家的政党缩写为“ind”。

于 2013-03-04T03:40:52.550 回答