6

剧透:
这只是另一个 Lucene vs Sphinx vs 不管什么,
我看到所有其他线程都快两年了,所以决定重新开始..

这是要求:

数据大小:最大 10 GB。
行:近十亿的
索引应该是快速
搜索应该在 0 毫秒以下 [好吧,笑话...笑...但保持这个尽可能低]

在当今世界,我该怎么做/做什么/怎么做?

编辑:我在 lucene 上做了一些计时,为了索引 1.8gb 数据,花了 5 分钟。
搜索速度非常快,除非我执行a*。a* 需要 400 ~ 500 毫秒。
我最担心的是索引,这需要 loooonnnnggg 时间和大量资源!

4

3 回答 3

2

除了 Lucene,我没有其他经验——它几乎是默认的索引解决方案,所以不要认为你会出错。

10GB 不是很多数据。您将能够非常快速地重新索引它 - 或将其保存在 SSD 上以提高速度。当然,将整个索引保存在 RAM 中(Lucene 支持)以进行超快速查找。

于 2011-02-23T14:00:08.540 回答
0

请查看 Lucene wiki 以获取有关提高 Lucene 索引速度的提示。这很简洁。一般来说,Lucene 非常快(它用于实时搜索。)如果您错过了“明显”的内容,这些提示将很方便。

于 2011-02-23T17:03:10.350 回答
0

我最担心的是索引,这需要 loooonnnnggg 时间和大量资源!

看看Lusql,我们用过一次,在一台像样的机器上,来自 mysql 的 FWIW 100 GB 数据在文件系统(NTFS)上花了一个多小时来索引

现在,如果您添加 SSD 或任何超快速磁盘技术,您可以大大降低它

于 2011-02-28T05:32:04.173 回答