搜索引擎(或类似的 Web 服务)使用平面文件和 nosql 数据库。倒排索引的结构比多对多关系更简单,但使用后者处理它应该更有效。几十亿的网页和数百万的关键字应该有两个表。我已经测试了一个 5000 万行的表;mysql的速度可以和BerkeleyDB媲美。
我认为在处理 ALTER TABLE 之类的东西时会出现使用大型 mysql 数据库的问题(这里不是这种情况)。这种性能是读取密集型的,其中mysql相当不错。通过 SELECT 读取一行时,我没有发现几行或几百万行的表之间存在显着差异;有数十亿行时有什么不同吗?
注意:我不是指 Google 或 Bing(或全文搜索等高级功能),我是在讨论这个概念。