4

搜索引擎(或类似的 Web 服务)使用平面文件和 nosql 数据库。倒排索引的结构比多对多关系更简单,但使用后者处理它应该更有效。几十亿的网页和数百万的关键字应该有两个表。我已经测试了一个 5000 万行的表;mysql的速度可以和BerkeleyDB媲美。

我认为在处理 ALTER TABLE 之类的东西时会出现使用大型 mysql 数据库的问题(这里不是这种情况)。这种性能是读取密集型的,其中mysql相当不错。通过 SELECT 读取一行时,我没有发现几行或几百万行的表之间存在显着差异;有数十亿行时有什么不同吗?

注意:我不是指 Google 或 Bing(或全文搜索等高级功能),我是在讨论这个概念。

4

1 回答 1

2

AFAIK,nosql 提供了其他常规关系数据库引擎无法提供的灵活性。我不知道哪个搜索引擎使用哪个数据库引擎,但我可以想到使用 nosql 的几个好处(不是平面文件。不知道为什么要将它们用于复杂的应用程序)。

现在,如果您只是匹配标准并给出没有特定顺序的结果 - 您可以使用任何关系数据库。但是,一旦您想提供最相关的结果,就需要考虑大量标准。你可以:

  • 优先考虑与用户先前选择的结果具有相似内容的结果。
  • 根据位置、语言和其他已知事实,列举与该人更相关的结果。
  • 首先列举更受欢迎的结果(同样,在特定地区/年龄组/职业组或基于用户已知事实的其他组中最受欢迎)。

这些只是我想到的基本排序标准。当一个人开始开发和维护时,会想到数百个其他标准,并且有可能实施。现在想想如何实现每一个。每个资源可能有数千个字段,每个新功能都需要额外的数据。

您可以使用关系数据库中的 EAV 模式来做到这一点,这会给您一些灵活性,或者您可以使用 NoSQL,它正是为此目的而构建的。

同样,这只是使用 NoSQL 的一个原因。我知道使用 RDBMS 的更多理由。

于 2011-10-16T11:01:59.220 回答