1

我设计了一个迷你搜索引擎,其中提供了一堆文件。我所做的是我爬取了这些文件并形成了一个哈希表,其中键是单词的哈希值,表条目是一棵二叉树,其中包含具有相同哈希的所有单词以及与该单词相关的一些其他信息.

我知道这个数据结构存在于内存中。我正在考虑扩展问题。如果为我提供了大量条目,内存将无法容纳如此大量的数据,因此我必须将其永久存储在硬盘驱动器上。但是,据我所知,数据以块的形式存储在硬盘中,作为程序员,我无法控制数据在磁盘上的存储方式。那么如何强制将数据存储在磁盘上,就像它们存储在内存中一样。

简而言之,我理解数据结构对于以有效方式处理数据很重要(如果使用正确的数据结构),但程序员只控制内存中数据的数据结构。如果数据很大,程序员如何将数据存储在磁盘中以进行高效检索?

4

1 回答 1

0

通常用于在单词和包含该单词的文档之间进行映射,倒排索引用作数据结构。 http://en.wikipedia.org/wiki/Inverted_index

于 2012-08-03T02:07:30.650 回答