我有 n 个文档,想查找这些文档中包含的常用词。例如,我想说 (n-3) 个文档包含单词“web”。
当然,我可以通过基本的数据结构来做到这一点,但可能有有效的算法或处理具有不同后缀的相同单词的方法。有没有用于这种目的的算法?
我不熟悉数据挖掘世界。一般来说,是否有一个术语用于寻找不同文档之间的相似性?如果有的话,我会很容易地进行我的研究。
谢谢。
我有 n 个文档,想查找这些文档中包含的常用词。例如,我想说 (n-3) 个文档包含单词“web”。
当然,我可以通过基本的数据结构来做到这一点,但可能有有效的算法或处理具有不同后缀的相同单词的方法。有没有用于这种目的的算法?
我不熟悉数据挖掘世界。一般来说,是否有一个术语用于寻找不同文档之间的相似性?如果有的话,我会很容易地进行我的研究。
谢谢。