47

当您的内容排名可以快速变化时,分页很难,当每个用户的排名不同时,分页就更难了。(让我们将无限滚动视为一种链接不可见的分页。)有两个难题:顶部的新添加内容和重新排序的内容。

让我们忘记新添加的内容,并接受您必须刷新第 1 页才能看到它。让我们也假装我们在做 pure ORDER BY position; 如果您通过其他方式订购,则可能必须使用窗口功能。我们的页面每页有 4 行动物。他们开始:

+----+----------+-----------+
| id | position^|  animal   |
+----+----------+-----------+
|  1 |        1 | Alpacas   |
|  2 |        2 | Bats      |
|  3 |        3 | Cows      |
|  4 |        4 | Dogs      |
|  5 |        5 | Elephants |
|  6 |        6 | Foxes     |
|  7 |        7 | Giraffes  |
|  8 |        8 | Horses    |
+----+----------+-----------+

在我们获取第 1 页之后,在我们获取第 2 页之前,很多项目都在移动。数据库现在是:

+----+----------+-----------+
| id | position^|  animal   |
+----+----------+-----------+
|  4 |        1 | Dogs      |
|  2 |        2 | Bats      |
|  1 |        3 | Alpacas   |
|  5 |        4 | Elephants |
|  6 |        5 | Foxes     |
|  7 |        6 | Giraffes  |
|  3 |        7 | Cows      |
|  8 |        8 | Horses    |
+----+----------+-----------+

常见的方法有以下三种:

偏移/限制方法

这是典型的幼稚方法;在 Rails 中,这就是will_paginateKaminari的工作方式。如果我想获取第 2 页,我会这样做

SELECT * FROM animals
ORDER BY animals.position
OFFSET ((:page_num - 1) * :page_size) 
LIMIT :page_size;

得到第 5-8 行。我永远不会看到大象,我会看到两次奶牛。

上次看到的 ID 方法

Reddit 采取了不同的方法。客户端不会根据页面大小计算第一行,而是跟踪您看到的最后一项的 ID,例如书签。当您点击“下一步”时,他们会从该书签开始查找:

SELECT * FROM animals
WHERE position > (
  SELECT position FROM animals 
  WHERE id = :last_seen_id
) 
ORDER BY position
LIMIT :page_size;

在某些情况下,这比页面/偏移量更好。但在我们的案例中,最后一次看到的帖子 Dogs 向右放大到 #1。所以客户发送了?last_seen_id=4,我的第 2 页是蝙蝠、羊驼、大象和狐狸。我没有错过任何动物,但我两次看到蝙蝠和羊驼。

服务器端状态

HackerNews(和我们的网站,现在)通过服务器端的延续解决了这个问题;他们为您存储整个结果集(或至少提前几页?),并且“更多”链接引用该延续。当我获取第 2 页时,我要求“原始查询的第 2 页”。它使用相同的偏移量/限制计算,但由于它与原始查询相反,我根本不在乎事情现在已经发生了变化。我看到大象、狐狸、长颈鹿和马。没有重复,没有遗漏的项目。

缺点是我们必须在服务器上存储大量状态。在 HN 上,它存储在 RAM 中,实际上这些延续通常在您按下“更多”按钮之前就过期,迫使您一直返回第 1 页以找到有效链接。在大多数应用程序中,您可以将其存储在 memcached 中,甚至可以存储在数据库本身中(使用您自己的表,或者在 Oracle 或 PostgreSQL 中,使用可保持游标)。根据您的应用程序,可能会影响性能;至少在 PostgreSQL 中,您必须找到一种方法来再次访问正确的数据库连接,这需要大量的粘性状态或一些巧妙的后端路由。

这是仅有的三种可能的方法吗?如果没有,是否有计算机科学概念可以让我在谷歌上阅读相关内容?有没有办法在不存储整个结果集的情况下近似延续方法?从长远来看,存在复杂的事件流/时间点系统,其中“在我获取第 1 页时的结果集”是永远可推导出的。还不够……?

4

5 回答 5

8

Oracle 很好地处理了这个问题。只要游标处于打开状态,您就可以根据需要多次获取,并且您的结果将始终反映打开游标的时间点。它使用撤消日志中的数据虚拟回滚打开游标后提交的更改。

只要所需的回滚数据仍然可用,它就会工作。最终日志被回收,回滚数据不再可用,因此有一些限制,具体取决于日志空间、系统活动等。

不幸的是(IMO),我不知道任何其他像这样工作的数据库。我使用过的其他数据库使用锁来确保读取一致性,如果您希望在非常短的时间内保持读取一致性,这是有问题的。

于 2012-03-16T23:56:39.973 回答
6

解决方案 1:“ hacky 解决方案

解决方案可能包括您的客户跟踪已经看到的内容,例如 ID 列表。每次您需要另一个页面时,将此 ID 列表添加到服务器调用的参数中。然后,您的服务器可以订购内容,删除已经看到的内容并应用偏移量来获取正确的页面。

我不会推荐它,我坚持hacky。我只是在这里写下来,因为它很快并且可以满足一些需求。以下是我能想到的坏事:

1)它需要在客户端进行一些工作才能使其正确(我上面的句子中的“已经看到”是什么意思,如果我转到上一页怎么办?)

2) 生成的订单不反映您的真实订购政策。尽管政策应该将内容放在第 1 页,但内容可能会显示在第 2 页。这可能会导致用户误解。让我们以堆栈溢出及其先前的排序策略为例,这意味着首先获得最多支持的答案。我们可以在第 2 页有一个有 6 个赞成的问题,而在第 1 页有一个有 4 个赞成的问题。当用户仍在第 1 页时发生 2 个或更多赞成票时,就会发生这种情况。--> 可能会让用户感到惊讶.

解决方案2客户端解决方案”

它基本上是您称为“服务器端状态”的客户端等效解决方案。只有在服务器端跟踪完整订单不够方便时,它才有用。如果项目列表不是无限的,它会起作用。

  • 调用您的服务器以获取完整(有限)订单列表 + 项目/页数
  • 保存在客户端
  • 直接通过内容的 id 检索项目。
于 2014-05-29T04:54:36.010 回答
4

我们现在使用服务器端状态方法,在第一个查询中缓存整个结果,所以我们总是返回一个一致的列表。只要我们的查询已经返回所有行,这将起作用;最终我们将需要使用最近邻方法,但这是行不通的。

但我认为还有第四种可能性,它的扩展性非常好,只要:

  1. 您不需要保证没有重复,只需要很高的可能性
  2. 只要您避免重复,您可以在滚动期间丢失一些内容

该解决方案是“最后一次看到的 ID”解决方案的变体:让客户保留 5 个或 10 个或 20 个书签,而不是保留 5 个或 10 个或 20 个书签 - 足够少,您可以有效地存储它们。查询最终看起来像:

SELECT * FROM posts
WHERE id > :bookmark_1
AND id > :bookmark_2
...
ORDER BY id

随着书签数量的增加,您 (a) 从某个点开始超过所有 n 个书签但 (b) 仍然看到重复内容的可能性迅速减小,因为它们都被重新排列。

如果将来有漏洞或更好的答案,我很乐意不接受这个答案。

于 2012-04-01T22:17:09.533 回答
1

派对很晚了,但这是我们尝试过的东西。我们使用的是连续加载,而不是用户会在它们之间来回切换的页面。

客户端构建了它显示的所有 ID 的列表,所以在第一次设置之后它可能是:4,7,19,2,1,72,3

当我们加载更多内容时,我们使用相同的排序执行相同的查询,但将其添加到其中:WHERE id NOT IN (4,7,19,2,1,72,3)

NOT IN 列表可以相当快地增长。对我们来说,这不是问题,因为我们的内部工具通常不会产生大量结果。

我想补充另一个想法。也许可以对此应用服务器端添加。当用户搜索时,将他们获得的所有 ID 添加到带有搜索链接的表中。当客户端想要更多时,它只需要提供搜索 ID(或使用服务器端状态),查询就可以加入他们的搜索数据。

于 2015-04-11T19:08:42.403 回答
0

如果行包含创建时间戳,则查询可以包含“之前”过滤器。这确保不包括在时间戳之后创建的任何行,因此分页是一致的(假设行在常量列上排序)。下面是一个示例 SQL 查询,它假定animals.position列中的值是常量。

SELECT
   a.*
FROM
   animals a
WHERE
   a.creation < :before
ORDER BY
   a.position
OFFSET ((:page_num - 1) * :page_size)
LIMIT :page_size

当客户端发出初始请求时(例如http://some.server.com/animals),服务器设置:before为当前时间,设置:page_num为 1 并:page_size设置为 20。服务器的响应包括一个链接,用于请求设置了所有 3 个参数的下一页(例如http://some.server.com/animals?before=2020-04-08T10:40:34.833Z&page_num=2&page_size=20)。因此,客户端保留请求下一页所需的所有状态,并且服务器可以在分页方面保持无状态。

before注意:如果用户在不带参数(即)的情况下刷新 URL http://some.server.com/animals,他们将看到新数据。before如果用户使用参数(即)刷新 URL http://some.server.com/animals?before=2020-04-08T10:40:34.833Z&page_num=2&page_size=20,他们将看到相同的数据。用户可以随时更改或删除before参数以查看新数据。

于 2020-04-08T16:51:06.153 回答