7

好吧,我想比较 2 个字符串(版本一和版本二)并以我可以自己转换为 html 的格式获取差异,就像您可以在堆栈溢出时查看帖子是如何在此处编辑的,或者像 svn 跟踪之间的差异修订......

它必须是完整的托管代码库。

喜欢这个JavaScript,但我需要在服务器端做它..

4

2 回答 2

9

Google has something similar and it is available in C#, but have not looked at it any deeper. The demo looks pretty cool though.

http://code.google.com/p/google-diff-match-patch/

于 2011-07-18T11:30:40.360 回答
6

我有一个这样做的类库,我将在下面发布一个链接,但我也会发布它是如何工作的,以便您评估它是否适合您的内容。

请注意,对于我在下面所说的所有内容,如果您将每个字符视为集合的一个元素,您可以为任何类型的内容实现下面描述的算法。无论是字符串的字符、文本行还是 ORM 对象的集合。

整个算法围绕最长公共子串(LCS)展开,是一种递归方法。

首先,该算法试图找到两者之间的 LCS。这将是两个版本之间不变/相同的最长部分。该算法然后认为这两个部分是“对齐的”。

例如,以下是两个示例字符串的对齐方式:

      This long text has some text in the middle that will be found by LCS
This extra long text has some text in the middle that should be found by LCS
          ^-------- longest common substring --------^

然后它递归地将自身应用于对齐部分之前的部分,以及之后的部分。

最终的“结果”可能如下所示(我使用下划线表示其中一个字符串中“不存在”的部分):

This ______long text has some text in the middle that ______will be found by LCS
This extra long text has some text in the middle that should____ be found by LCS

然后,作为递归方法的一部分,每个级别的递归调用将返回一个“操作”集合,根据是否存在 LCS 或任一部分中的缺失部分,将返回如下所示:

  • 如果是 LCS,那么它是一个“复制”操作
  • 如果从第一次丢失,那么它是一个“插入”操作
  • 如果从第二个丢失,那么它是一个“删除”操作

所以上面的文字是:

  1. 复制 5 个字符 ( This)
  2. 插入extra_(显然这里的代码块去掉空格,下划线是空格)
  3. 复制 43 个字符 ( long text has some text in the middle that_)
  4. 插入should
  5. 删除 4 个字符 ( will)
  6. 复制 16 个字符 ( _be found by LCS)

算法的核心很简单,有了上面的文字,你应该可以自己实现它,如果你愿意的话。

我的类库中有一些额外的功能,特别是处理类似于更改文本的内容等内容,这样您不仅可以进行删除或插入操作,还可以进行修改操作,这将很重要,如果您正在比较某些内容的列表,例如文本文件中的行。

可以在此处找到类库:GitHub 上的 DiffLib,您还可以在 Nuget 上找到它,以便在 Visual Studio 2010 中轻松安装。它是用 C# 编写的,适用于 .NET 3.5 及更高版本,因此适用于 .NET 3.5 和 4.0 ,并且由于它是一个二进制版本(尽管所有源代码都在 GitHub 上),您也可以从 VB.NET 使用它。

于 2011-07-18T11:25:05.497 回答