2

我知道 Google Search Appliance 可以访问这些信息(因为这会影响 PageRank 算法),但是有没有办法从爬虫设备中导出这些信息?

外部工具将不起作用,因为很大一部分内容是针对公司 Intranet 的。

4

6 回答 6

3

可能是谷歌上可用的东西,但我从未检查过。我通常使用W3C 提供的链接检查器。W3C 还可以检测重定向,如果您的服务器通过重定向而不是返回 404 状态代码来处理 404,这很有用。

于 2009-01-06T21:43:17.220 回答
1

您可以使用Google 网站管理员工具查看您网站上的损坏链接等。

不过,这不会向您显示到外部网站的断开链接。

于 2009-01-06T21:48:22.983 回答
1

似乎这是不可能的。在 Status and Reports > Crawl Diagnostics 下,有 2 种可用的报告样式:目录向下钻取“树视图”和一次 100 个 URL 的“列表视图”。有些人尝试创建程序以通过列表视图进行分页,但这似乎在几千个 URL 之后失败了。

我的建议是改用您的服务器日志。确保在您的 Web 服务器上启用 404 和引用 URL 日志记录,因为您可能希望更正包含损坏链接的页面。

然后,您可以使用日志文件分析器生成损坏的链接报告。

要创建一种有效的、长期的方法来监控损坏的链接,您可能需要设置一个 cron 作业来执行以下操作:

  • 用于grep从服务器日志文件中提取包含 404 条目的行。
  • 用于sed从每一行中删除除请求的 URL 和引用 URL 之外的所有内容。
  • 使用sortuniq命令从列表中删除重复项。
  • 每次将结果输出到一个新文件,以便您可以监控随时间的变化。
于 2009-01-07T12:55:54.943 回答
1

一个名为 Xenu 的免费工具被证明是这项任务的首选武器。 http://home.snafu.de/tilman/xenulink.html#Download

于 2009-01-07T17:35:05.053 回答
0

为什么不只分析您的网络服务器日志并查找所有 404 页面?这更有意义,也更可靠。

于 2009-01-06T22:02:42.687 回答
0

我知道这是一个老问题,但您可以使用 GSA 管理控制台上的导出 URL 功能,然后查找状态为 not_found 的 URL。这将向您显示 GSA 已发现但在尝试抓取它们时返回 404 的所有 URL。

于 2015-09-29T04:43:47.817 回答