我想创建一个大约 10 6 个术语的大倒排索引。你会建议什么方法?我正在考虑使用快速二进制密钥存储数据库,如 Tokyo cabinet、voldemort 等。编辑:我过去曾尝试使用 MySQL 存储一个包含两个整数的表来表示倒排索引,但即使第一列有一个 db索引,查询很慢。我认为对于这些情况,SQL 数据库有太多开销、事务开销、查询解析等。我正在寻找哪些技术或算法方法可以扩展,同时具有良好的响应时间和性能。出于研究目的,我正在推出自己的解决方案。
问问题
3749 次
3 回答
0
这很酷,你试图自己动手。也许研究 Lucene 的倒排索引文件格式? http://lucene.apache.org/java/3_1_0/fileformats.html
于 2011-04-19T14:05:59.460 回答
0
是的,绝对考虑将Lucene用于索引,因为它基本上是目前最出色的索引器。事实上,我目前正在考虑将它用于索引我的图像数据库。“默认”语言是 Java,但它已被移植到其他语言,例如用于 C++ 的CLucene、用于 python 的PyLucene 。
可以在此处找到快速教程。
于 2011-12-22T06:04:18.780 回答