在http://www.explainth.at/en/delphi/dsort.shtml上找到了这个编码的合并排序(站点关闭,但尝试使用 wayback 机器或这个站点:http ://read.pudn.com/downloads192/sourcecode/delphi_control/901147 /Sorts.pas__.htm)但本质上定义的数组不是字符串数组。
type TSortArray = array[0..8191] of Double;
我想传递一个字符串数组,它可能会消除重复项(这将是联合?),并尽可能保留原始顺序,以便以后将其恢复到原始索引位置减去重复项(原始索引),以便可以将数组传回用于进一步处理。我正在使用非常大的字符串文件,其中包含数百万个字符串(14 到 3000 万)所以TStringList
不是一种选择。这些大文件的最佳选择是使用字符串数组或记录数组(或者可能是单链表??)并使用为大量数据制作的稳定算法进行排序。
- 如何更改它以获取字符串数组?
- 如何进一步修改以删除或至少标记重复项?
- 是否可以存储原始索引号以将字符串放回原始位置?
- 与单个链表相比,字符串数组或记录数组是否更适合大量字符串?
问题按重要性顺序列出,因此如果您只回答第 1 个问题就可以了。预先感谢您的所有意见。
procedure MergeSort(var Vals:TSortArray;ACount:Integer);
var AVals:TSortArray;
procedure Merge(ALo,AMid,AHi:Integer);
var i,j,k,m:Integer;
begin
i:=0;
for j:=ALo to AMid do
begin
AVals[i]:=Vals[j];
inc(i);
//copy lower half or Vals into temporary array AVals
end;
i:=0;j:=AMid + 1;k:=ALo;//j could be undefined after the for loop!
while ((k < j) and (j <= AHi)) do
if (AVals[i] < Vals[j]) then
begin
Vals[k]:=AVals[i];
inc(i);inc(k);
end else
begin
Vals[k]:=Vals[j];
inc(k);inc(j);
end;
{locate next greatest value in Vals or AVals and copy it to the
right position.}
for m:=k to j - 1 do
begin
Vals[m]:=AVals[i];
inc(i);
end;
//copy back any remaining, unsorted, elements
end;
procedure PerformMergeSort(ALo,AHi:Integer);
var AMid:Integer;
begin
if (ALo < AHi) then
begin
AMid:=(ALo + AHi) shr 1;
PerformMergeSort(ALo,AMid);
PerformMergeSort(AMid + 1,AHi);
Merge(ALo,AMid,AHi); <==== passing the array as string causes AV breakdown here
end;
end;
begin
SetLength(AVals, ACount);
PerformMergeSort(0,ACount - 1);
end;