3

我照顾一个大型网站,并一直在研究其他类似的网站。特别是,我看过 flickr 和 deviantart。我注意到虽然他们说他们有很多数据,但他们只显示了这么多。

我认为这是出于性能原因,但任何人都知道他们如何决定显示什么和不显示什么。经典示例,去 flickr,搜索标签。请注意页面链接下方列出的结果数量。现在计算将是哪个页面,转到该页面。您会发现该页面上没有数据。事实上,在我的测试中,flickr 说有 5,500,000 个结果,但只显示了 4,000 个。这是怎么回事?

大型网站是否变得如此之大以至于他们不得不开始将旧数据离线?Deviantart 有一个 Wayback 功能,但不太确定它是做什么的。

任何输入都会很棒!

4

2 回答 2

1

这是一种性能优化。如果您已经获得 4000 个结果,则无需扫描整个表。用户不会转到第 3897 页。当 flickr 运行搜索查询时,它会找到前 4000 个结果,然后停止,并且不会花费 CPU 时间和 IO 时间来查找无用的附加结果。

于 2010-11-08T15:23:33.300 回答
0

我想在某种程度上它是有道理的。在搜索时,如果用户在第 400 页之前没有点击任何链接(假设每个页面有 10 个结果),那么用户要么是白痴,要么以某种方式涉及爬虫。

严肃地说,如果直到第 40 页都没有产生有利的结果,有关公司可能需要解雇他们所有的搜索团队并采用 Lucene 或 Sphinx :)

我的意思是,与试图显示超过 4000 个搜索结果的基础设施问题作斗争相比,他们尝试提高搜索准确性会更好。

于 2010-11-08T15:40:28.927 回答