我知道 Google Search Appliance 可以访问这些信息(因为这会影响 PageRank 算法),但是有没有办法从爬虫设备中导出这些信息?
外部工具将不起作用,因为很大一部分内容是针对公司 Intranet 的。
我知道 Google Search Appliance 可以访问这些信息(因为这会影响 PageRank 算法),但是有没有办法从爬虫设备中导出这些信息?
外部工具将不起作用,因为很大一部分内容是针对公司 Intranet 的。
可能是谷歌上可用的东西,但我从未检查过。我通常使用W3C 提供的链接检查器。W3C 还可以检测重定向,如果您的服务器通过重定向而不是返回 404 状态代码来处理 404,这很有用。
您可以使用Google 网站管理员工具查看您网站上的损坏链接等。
不过,这不会向您显示到外部网站的断开链接。
似乎这是不可能的。在 Status and Reports > Crawl Diagnostics 下,有 2 种可用的报告样式:目录向下钻取“树视图”和一次 100 个 URL 的“列表视图”。有些人尝试创建程序以通过列表视图进行分页,但这似乎在几千个 URL 之后失败了。
我的建议是改用您的服务器日志。确保在您的 Web 服务器上启用 404 和引用 URL 日志记录,因为您可能希望更正包含损坏链接的页面。
然后,您可以使用日志文件分析器生成损坏的链接报告。
要创建一种有效的、长期的方法来监控损坏的链接,您可能需要设置一个 cron 作业来执行以下操作:
grep
从服务器日志文件中提取包含 404 条目的行。sed
从每一行中删除除请求的 URL 和引用 URL 之外的所有内容。sort
和uniq
命令从列表中删除重复项。一个名为 Xenu 的免费工具被证明是这项任务的首选武器。 http://home.snafu.de/tilman/xenulink.html#Download
为什么不只分析您的网络服务器日志并查找所有 404 页面?这更有意义,也更可靠。
我知道这是一个老问题,但您可以使用 GSA 管理控制台上的导出 URL 功能,然后查找状态为 not_found 的 URL。这将向您显示 GSA 已发现但在尝试抓取它们时返回 404 的所有 URL。