我需要有关逻辑的想法,该逻辑将匹配比较两个字符串的重复字符集。
Car is blue and new
vs Car is blue and old
,会找到 16 个匹配
Car is , blue
项 vsCar is blue color
会找到Car is
匹配项和 blue
所以基本上我需要按百分比找出两个字符串(SQL Server 或 C#,最好是 SQL Server)中有多少重复字符是相同的。
我不希望有人给我写代码,但任何想法、链接或类似的东西都会受到欢迎。
我需要有关逻辑的想法,该逻辑将匹配比较两个字符串的重复字符集。
Car is blue and new
vs Car is blue and old
,会找到 16 个匹配
Car is , blue
项 vsCar is blue color
会找到Car is
匹配项和 blue
所以基本上我需要按百分比找出两个字符串(SQL Server 或 C#,最好是 SQL Server)中有多少重复字符是相同的。
我不希望有人给我写代码,但任何想法、链接或类似的东西都会受到欢迎。
这里有点想法,你可以得到一个字符串中所有单词的列表,然后检查它们是否存在于另一个字符串中:
string baseStringOne = "Car is blue and new", baseStringTwo = "Car is blue and old";
string[] subs = baseStringOne.Split(' ');
foreach (string sub in subs)
{
if (baseStringTwo.Contains(sub))
{
//Substring found!
}
}
我想你会发现这些是相关的:
The diff algorithm
An implementation for C#
您可以通过以下方式获得不同的字符:
public static string Common(string s1, string s2)
{
return new string((s1.Intersect(s2)).ToArray());
}