我正在寻找一种算法来确定两个文本文档是否相似,其中一个文档包含在另一个文档中。
我提前谢谢你。
您始终可以将diff与diffstat一起使用。diff 文档对它使用的算法并不精确,但原作者写了一篇关于它的论文(Google for diff paper),你可以随时阅读源代码。
要获得更精确的答案,您将需要更精确的问题。您是否只想知道一个文档是否是另一个文档的片段?或者您是否也想知道是否可以将一个文件拆分成多个片段,每个片段都以相同的顺序出现在另一个文档中?或者,如果您尝试使用快速算法匹配两个文档的材料,您是否也想知道有多少材料不会出现?diff 会告诉你所有这些事情。或者你想知道绝对的最佳匹配吗?diff 并不总是给你,你需要像Levenshtein distance这样的东西。如果其中一个文档比另一个短得多,您可以使用快速字符串搜索算法。等等等等。