Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用此资源从网页中提取关键字。它工作正常,但有些单词格式不正确。单词“ memory ”被提取为“ memori ”,“ article ”被提取为“ artcl ”。还有许多其他具有类似行为的关键字。这是从该URL中提取的一些关键字的列表(var_dump($uniqueKeywords)),作为函数的参数。
PS:我没有剥离数字。
这些词使用词干算法进行转换。词干允许匹配不同形式的单词,例如“memory”和“memories”都转换为“memori”。请注意,词干通常不是实际单词,而应仅用于比较。
如果您不想要这种行为,请跳过本教程的“词干”部分。