0

我正在使用此资源从网页中提取关键字。它工作正常,但有些单词格式不正确。单词“ memory ”被提取为“ memori ”,“ article ”被提取为“ artcl ”。还有许多其他具有类似行为的关键字。这是从URL中提取的一些关键字的列表(var_dump($uniqueKeywords)),作为函数的参数。

PS:我没有剥离数字。

4

1 回答 1

3

这些词使用词干算法进行转换。词干允许匹配不同形式的单词,例如“memory”“memories”都转换为“memori”。请注意,词干通常不是实际单词,而应仅用于比较。

如果您不想要这种行为,请跳过本教程的“词干”部分。

于 2013-02-06T07:24:18.940 回答