Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想知道一个站点中有多少个公共页面,例如,smasingmagzine.com。有没有办法计算页数?
您可以使用运算符查询 Google 的索引site。例如:
site
site:domain-to-query.com
这将返回当前被 Google 索引的站点的页面列表。其他搜索引擎提供类似的功能,但我不知道手头的语法。
当然不是所有的页面都可以被索引,并且索引可能包含不再存在的页面。
您需要基本上抓取该网站。您的过程将类似于:
当没有更多指向同一域的要抓取的链接时,您的循环将终止。请记住留在网站中,否则您将开始抓取外部网站。
如果他们提供,您也可以尝试解析站点地图。
如果使用 Java,可能证明有用的一种工具是PHP 中的JSpider或Sphider。
您需要递归地扫描每个页面的标记,从您的顶级页面开始,寻找到其他页面的任何类型的链接,然后递归地爬过它们。您还需要跟踪已扫描的内容,以免陷入无限循环。