希望你能帮帮我。
我有一个 135.000 行长的 txt 文件,其中包含如下行:111706469;1972WE;26;Wel
.
程序应该做的是将每一行与它之前的每一行进行比较,以确定它是否超过 80% 相似,然后说明原始行的行号。
像这样我自己设法做的那些事情。
if (rows.Length > 1) {
for (int rowIndex = 1; rowIndex < rows.Length; rowIndex++)
{
string cols = rows[rowIndex];
bool Dubbel = false;
for (int DupIndex = 0; DupIndex < rowIndex; DupIndex++)
{
string SearchDup = rows[DupIndex];
decimal ComparisonResult = Compare(cols, SearchDup);
if (ComparisonResult > 80)
{
cols += ";" + DupIndex;
Dubbel = true;
break;
}
}
Console.WriteLine(rowIndex + ";" + cols);
}
}
这意味着程序必须为每个数组项一次又一次地遍历数组。我的问题是,有没有更快/更好的方法来做到这一点?
您能给我的任何帮助将不胜感激。