我正在开发一个抄袭检测框架。在那里,我们首先以词干提取、同义词替换和停用词删除的方式对文档进行预处理。所以预处理后的文档与原始文档有些不同。
在我们将预处理的文档输入到我们的抄袭函数后,它会返回相似的句子。
然后在我们的 GUI 中,我们必须通过高亮显示这两个文档和相似的句子。
要在 java 中突出显示,我们必须获取单词的索引并突出显示。
问题是预处理后的文本与原始文档不同,因此很难对原始文档中的相似句子进行索引。
谁能帮我解决这个问题??
我正在开发一个抄袭检测框架。在那里,我们首先以词干提取、同义词替换和停用词删除的方式对文档进行预处理。所以预处理后的文档与原始文档有些不同。
在我们将预处理的文档输入到我们的抄袭函数后,它会返回相似的句子。
然后在我们的 GUI 中,我们必须通过高亮显示这两个文档和相似的句子。
要在 java 中突出显示,我们必须获取单词的索引并突出显示。
问题是预处理后的文本与原始文档不同,因此很难对原始文档中的相似句子进行索引。
谁能帮我解决这个问题??