我需要一个“出发点”来研究用于在大量随机数据中查找随机字符串的高效搜索算法、方法和技术的选项。我只是在学习这些东西,所以有人有这方面的经验吗?以下是我要优化的一些条件:
- 第一个想法是在搜索索引等方面最小化文件大小 - 所以尽可能小的索引,甚至更好 - 动态搜索。
- 要搜索的数据是大量完全随机的数据——例如,没有可感知模式的随机二进制 0 和 1。千兆字节的东西。
- 提供一个同样随机的搜索字符串,比如 0111010100000101010101 在大量随机数据中找到相同字符串的最有效方法是什么?性能等方面的权衡是什么?
- 需要定位该搜索字符串的所有实例,因此这似乎是限制要实施的解决方案类型的重要条件。
任何提示、线索、技术、维基文章等将不胜感激!我现在正在研究这个,看起来很有趣。谢谢。