1

如何近似计算使用 solr 创建的索引大小(内存使用量)?我知道有很多变量会进入计算,但只是关于它需要 10GB 还是 10MB。

例如,我有 1000 个文档,字段只有idtext,并且想确定字段类型是 string 还是 text_general。如果我添加另一个字段,大小如何变化。

也许,如果有人能如此感激并在这里写一些关于真实索引的统计数据。

4

1 回答 1

1

Solr 索引大小取决于许多因素

  1. 定义的字段数
  2. 这些字段的配置,索引或存储的位置。存储字段通常会导致索引增长
  3. 为字段定义的类型和字段类型。例如,字符串字段作为一个整体存储。但是,文本字段将根据对字段执行的分析类型生成多个标记。例如,边缘 gram、ngrams、同义词等会导致生成多个标记,如果存储将保留在索引中。
  4. 您正在索引的字段的内容。如果生成的标记更常见并且不是唯一的,那么您将拥有一个较小的索引大小,因为 Lucene 将标记字典分开存储并且只有指向文档中标记的指针。
  5. 对于索引大小而言,维持头寸可能非常昂贵,因此如果不使用头寸,请避免使用它

还有更多。

于 2013-07-15T04:53:42.897 回答