2

我想知道一个站点中有多少个公共页面,例如,smasingmagzine.com。有没有办法计算页数?

4

3 回答 3

3

您可以使用运算符查询 Google 的索引site。例如:

site:domain-to-query.com

这将返回当前被 Google 索引的站点的页面列表。其他搜索引擎提供类似的功能,但我不知道手头的语法。

当然不是所有的页面都可以被索引,并且索引可能包含不再存在的页面。

于 2011-02-09T14:16:17.483 回答
2

您需要基本上抓取该网站。您的过程将类似于:

  • 从根域/主页开始
  • 查找指向同一域内的所有链接
  • 对于每个链接,重复这些步骤

当没有更多指向同一域的要抓取的链接时,您的循环将终止。请记住留在网站中,否则您将开始抓取外部网站。

如果他们提供,您也可以尝试解析站点地图。

如果使用 Java,可能证明有用的一种工具是PHP 中的JSpiderSphider

于 2011-02-09T14:13:27.587 回答
0

您需要递归地扫描每个页面的标记,从您的顶级页面开始,寻找到其他页面的任何类型的链接,然后递归地爬过它们。您还需要跟踪已扫描的内容,以免陷入无限循环。

于 2011-02-09T14:14:59.813 回答