考虑在 MySQL 数据库中存储位置记录的倒排索引:
Word (VARCHAR) | Documents (LONGTEXT)
-------------------------------------------------------------
Hello | {id: 11, freq: 4, pos: [18, 37, 43, 119]},
| {id: 19, freq: 2, pos: [17, 32]}
-------------------------------------------------------------
现在,一个新文档来了,它的大部分单词已经被索引了。现在应该进行什么索引操作?基本方法似乎是,如果该单词已经存在于数据库中,则获取其文档并将当前文档添加到其中并更新记录。
随着文件数量的增加达到数百万,这是否可持续?Solr、Xapain、Google、Bing 等现实世界的搜索引擎如何处理这个问题?