1

我正在为文本文件构建一个抄袭检查器。我做了所有预处理(停用词删除、词干提取等)并建立我的索引。和过滤结果。系统差不多完成了。当我测试结果时,我按句子对语料库和用户文档进行了分块(句子分隔符是。?!)我注意到分块方法(按句子)并不强大,因为用户可能会更改标点符号来欺骗我的服务。我读了很多关于分块的文章,最好的方法是 K-words重叠,这意味着按照单词的数量进行分割,重叠。我的问题是,在这种情况下如何计算用户块和语料库块之间的相似度,因为重叠的单词会使相似度最大化。

示例:(忽略词干和停用词删除)这里的词数 = 4,重叠 = 1 个词(可能会更改)

用户句子= 我如何在您的语料库中找到类似的句子。

chunks = 我怎么能找到,我能找到相似的,我找到相似的句子,找到相似的句子,你的相似句子,你的语料库中的句子。

现在,当我针对语料库测试这些块时(让语料库有一个块说:我怎么能找到)你注意到用户块(我怎么能找到,我能找到相似的)与语料块有相似性,但两个用户块是多余的。那么我怎样才能消除这种冗余,抱歉解释太长了。

4

0 回答 0