假设您有一个大型集合,磁盘上有 n 个对象,每个对象都有一个可变大小的字符串。使用纯字符串比较对这些对象进行索引的有效方法的常见做法是什么。从长远来看,由于大小和 I/O 的原因,将整个字符串存储在索引上会令人望而却步,但由于磁盘具有高延迟,因此仅存储引用也不是一个好主意。
我一直在考虑使用类似 B-Tree 的设计和尝试,但找不到使用这种方法的任何数据库实现。事实上,很难找到主要数据库如何为字符串实现索引(它可能会在大量 SQL 级信息的结果中丢失。)
蒂亚!
编辑:将标题从“有效的外部排序和搜索具有大字符串的存储对象”更改为“有效存储字符串的外部索引”。