1

我有将(有时)大型 CSV 文件加载到数组中的程序。数据无法排序,不知道数据是文本还是数字。这取决于客户。

示例可能是

1;JOHN;DOE
2;JANE;DOE;
3;BOBBY;NOTABLES

但也可以是字符串

MB9384HJ;TEST1
B9284918;TEST2

行数可能高达几百万。

我想在一列中搜索一个特定的值(这是提前知道的,这是我的“关键索引列”)。假设这是唯一的。关键是找到该列在哪一行。

目前代码正在从 1..n 遍历并进行比较。这显然在接近尾声时变慢了。

我正在考虑这些选项:

  • 具有键索引值和记录号的内存 SQLite 数据库
  • 带键的 TStringDictionary,记录为对
  • 哈希字符串列表

我的想法是:我不是遍历数组,而是查询索引的键(客户端提供要搜索的项目,它必须是随机访问的)。然后我立即得到数组的行号,我可以获取数据。

其中哪一个(或其他,如果有的话)将是一个更好的路径?

4

2 回答 2

1

如果您只想搜索密钥,SQLite 可能太多了。如果您用 CSV 填充 SQLite 表并且不仅要对键而且还要对其他列进行复杂的查询,那将会很有趣。

散列字符串列表可能更快,但存在散列冲突问题。

字典可能是您特定情况下的最佳解决方案。因为 Delphi RTL 提供了所需的泛型类,所以这很容易。

于 2021-01-23T07:36:36.383 回答
1

尽管较新的 Delphi (2009+) 已内置 TDictionary,但此处(一种可能的)解决方案适用于较旧的 Delphi 版本。

这是使用Delphi Fundamentals 5,甚至可以为D6编译。

uses 
   flcDataStructs;
//...
var
   thedict : TIntegerDictionary;
   i : integer;

begin
  thedict := TIntegerDictionary.Create;
  thedicnr.DuplicatesAction := ddIgnore;  // should there be duplicates in my key column

  for i := 0 to length(dataarray)-1 do
    begin
      thedict.Add(dataarray[i], i);
    end;
end;

// to use:
//    rownumber := thedict['stringToSearch'];

于 2021-01-23T15:18:39.053 回答