3

前段时间,我使用Text::DeDupe编写了一个小脚本来删除重复的博客文章,然后才不得不关注它们。

在阅读了实现所依据的 Web 论文的句法聚类之后,我希望能够找到重叠的文档(例如,与全文相对的博客片段,也许还有引号)。

您是否知道在编写自己的 C、C++ 或 perl 中我可以尝试的任何其他实现?

4

1 回答 1

2

SpotSigs 似乎正好符合我的要求,这里有一些参考资料:

该模块的源代码托管在 GitHub 上:

http://github.com/jzawodn/perl-text-spotsig

于 2010-04-26T17:44:36.187 回答