0

我正在开发一个抄袭检测框架。在那里,我们首先以词干提取、同义词替换和停用词删除的方式对文档进行预处理。所以预处理后的文档与原始文档有些不同。

在我们将预处理的文档输入到我们的抄袭函数后,它会返回相似的句子。

然后在我们的 GUI 中,我们必须通过高亮显示这两个文档和相似的句子。

要在 java 中突出显示,我们必须获取单词的索引并突出显示。

问题是预处理后的文本与原始文档不同,因此很难对原始文档中的相似句子进行索引。

谁能帮我解决这个问题??

4

1 回答 1

2

您必须将某种元数据与预处理文档一起存储,以便将其内容映射到原始文档。就像保留因删除停用词而导致的所有空白的列表,或者存储有关用同义词替换单词的位置的信息。

如果您记录在预处理期间所做的每一个更改(位置/替换文本),那么您应该能够在原始文档中找到原始短语。

于 2011-05-19T06:38:28.223 回答