1

这是为http://cssfingerprint.com

我有一个较大的网站数据库(约 1 亿行)。这包括主要域(2LD 和 3LD)和从这些域中抓取的特定 URL(无论是托管在那里 [如大多数博客] 还是仅从其链接 [如 Digg],并引用主机域)。

我还抓取了 Alexa 前 100 名、Bloglines 前 1000 名、Google pagerank、Technorati 前 100 名和 Quantcast 前 100 名排名。但是,许多域将没有排名,或者只有一部分;几乎所有的子域 URL 都没有排名,除了谷歌的 0-10 页面排名(有些甚至没有)。

我可以添加任何必要的新抓取,假设它不需要大量的爬虫。

我也有大量关于以前用户访问过哪些网站的信息。

我需要的是一种算法,该算法根据访问者在不知道当前访问者的情况下访问该 URL 的可能性对这些 URL 进行排序。(但是,它可以使用有关以前用户的汇总信息。)

这个问题只是关于相对固定(或至少汇总)的先验排名;还有另一个问题涉及获得动态排名。

鉴于我的资源有限(计算资源和财务资源),我按照访问这些站点的先验概率对这些站点进行排名的最佳方法是什么?

4

0 回答 0