similarity - 分块文件以测试抄袭

翻译自：https://stackoverflow.com/questions/33941091 2015-11-26T14:28:31.693

179 次

我正在为文本文件构建一个抄袭检查器。我做了所有预处理（停用词删除、词干提取等）并建立我的索引。和过滤结果。系统差不多完成了。当我测试结果时，我按句子对语料库和用户文档进行了分块（句子分隔符是。？！）我注意到分块方法（按句子）并不强大，因为用户可能会更改标点符号来欺骗我的服务。我读了很多关于分块的文章，最好的方法是 K-words重叠，这意味着按照单词的数量进行分割，重叠。我的问题是，在这种情况下如何计算用户块和语料库块之间的相似度，因为重叠的单词会使相似度最大化。

示例：（忽略词干和停用词删除）这里的词数 = 4，重叠 = 1 个词（可能会更改）

用户句子= 我如何在您的语料库中找到类似的句子。

chunks = 我怎么能找到，我能找到相似的，我找到相似的句子，找到相似的句子，你的相似句子，你的语料库中的句子。

现在，当我针对语料库测试这些块时（让语料库有一个块说：我怎么能找到）你注意到用户块（我怎么能找到，我能找到相似的）与语料块有相似性，但两个用户块是多余的。那么我怎样才能消除这种冗余，抱歉解释太长了。

similarity - 分块文件以测试抄袭

0 回答 0

Related

Reference