前段时间,我使用Text::DeDupe编写了一个小脚本来删除重复的博客文章,然后才不得不关注它们。
在阅读了实现所依据的 Web 论文的句法聚类之后,我希望能够找到重叠的文档(例如,与全文相对的博客片段,也许还有引号)。
您是否知道在编写自己的 C、C++ 或 perl 中我可以尝试的任何其他实现?
前段时间,我使用Text::DeDupe编写了一个小脚本来删除重复的博客文章,然后才不得不关注它们。
在阅读了实现所依据的 Web 论文的句法聚类之后,我希望能够找到重叠的文档(例如,与全文相对的博客片段,也许还有引号)。
您是否知道在编写自己的 C、C++ 或 perl 中我可以尝试的任何其他实现?
SpotSigs 似乎正好符合我的要求,这里有一些参考资料:
该模块的源代码托管在 GitHub 上: