我正在尝试一些文本比较/基本抄袭检测,并希望在网站到网站的基础上进行尝试。但是,我有点难以找到处理文本的正确方法。
您将如何处理和比较两个网站的抄袭内容?
我在想这样的伪代码:
// extract text
foreach website in websites
crawl website - store structure so pages are only scanned once
extract text blocks from all pages - store this is in list
// compare
foreach text in website1.textlist
compare with all text in website2.textlist
我意识到这个解决方案可以很快地积累大量数据,所以它可能只适用于非常小的网站。
我还没有决定实际的文本比较算法,但现在我更感兴趣的是让实际的过程算法首先工作。
我认为将所有文本提取为单独的文本片段(从段落、表格、标题等)是一个好主意,因为文本可以在页面上移动。
我正在用 C#(也许是 ASP.NET)来实现它。
我对您可能有的任何意见或建议非常感兴趣,所以请拍摄!:)