问题标签 [link-checking]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
275 浏览

grails - Grails - 作为持续集成的一部分的链接检查

因此,我们有一个使用 Hudson CI 构建过程设置的 grails 应用程序。我们正在运行单元测试、集成测试,并且还将为一些功能测试设置 Selenium。

但是,是否有任何好的方法来全面测试站点链接以确保发布中没有任何问题。

我知道一般都有链接检查器,但我希望它成为构建过程的一部分,因此如果出现问题,构建将彻底失败。

0 投票
3 回答
313 浏览

html - 检查整个网站的链接

我知道有人问过类似的问题,但我不确定答案(而且我不能轻易测试所有这些),所以在我疯狂继续搜索之前,我想问:有没有简单的方法来抓取网站上的所有页面并自动检查它们是否存在损坏和无效链接?最好我想要一个不需要安装或编译的解决方案,因为我受到严重限制。谢谢。

0 投票
5 回答
13866 浏览

php - 检查 PHP 中是否存在 URL 的最佳方法是什么?

查看 URL 存在且响应不是 404 的最佳方法是什么?

0 投票
2 回答
85 浏览

linux - 检查站点以获取我的站点文件

有没有程序爬取指定的网站,如果有引用另一个网站就会吐出来?我有图像、视频文件、pdf 等。我需要给另一个开发人员以完成端口到他们的新服务器。

我刚刚将一个旧网站转移给另一个人,他们仍在使用我的文件。我不知道 100% 是所有文件,我想确定我需要给他们什么文件。如果有一个可以抓取的链接检查器之类的东西会很好,如果有对网站根目录(例如 sub.domain.com)的引用,那么它会吐出有关它的信息(什么页面,什么是 url)。

我现在不想阻止该网站使用这些文件,所以这已经结束了。

我在 Mac 上,所以任何终端程序都可以。

0 投票
1 回答
95 浏览

python - 也许我需要导出路径但不确定

我正在尝试将 check-html 标志与链接检查器一起使用。它给出了一个错误,即未安装 tidy 模块。如果我在命令行中说 tidy,我可以使用它。我已经安装了 MacPorts,并且已经安装了几乎所有与 python 相关的 libtidy 或 tidy 选项。我认为这与 $PATH 问题或其他问题有关。

因此,如果我使用 python26 并进入 python 然后说 import tidy 没有错误,一切都很好。如果我使用 python27,当我说 import tidy 时会出错。我假设是因为我安装了 py26-utidylib py26-pytidylib。没有py27s。我不介意在 python26 中。因此,如果我在 python26 中,我应该能够整洁地运行。

但是当我运行 linkchecker 时,它说 tidy 模块没有安装。当我说哪个 python 时,它说我的位置是 /opt/local/bin/python。我是否需要导出 $PATH 或 $PYTHONPATH 或其他东西才能使其工作?

0 投票
1 回答
353 浏览

web-crawler - 每天检查网站列表中的所有网页

客人有一个网站A有一个合作伙伴计划。
合作伙伴网站B具有指向A 的链接。
我需要以一定的频率(每天两次)检查所有合作伙伴网站(5000 个网站)的所有网页,并提取从BA 的所有链接。然后我必须用正则表达式检查 url 是否以某种方式构建。

我可以用 PHP 轻松做到这一点,但是第三方解决方案可能已经面临一些严重的挑战

  • 我想利用带宽使用
  • 我希望尽快完成任务
  • 要检查的网页可能是业余网页充满错误和不一致的 html
  • 我只想管理自上次检查后发生更改的网页
  • 该过程必须自动化(cron?或替代方案?)
  • ...
  • (请随意扩展此列表)

但是我不想构建一个超级超级超级复杂的工具……
我仍然想要一个小巧轻便的聪明解决方案。

你将如何解决这样的任务?

0 投票
1 回答
2304 浏览

php - 检查链接是否有效,如果没有直观地识别为已损坏

我正在开展一个项目,该项目列出了来自 Oron、filepost、depositfiles 等公司的文件共享 url,该项目向我的网络中已识别的内容所有者和权利持有者报告了受版权保护的材料的共享。

为了更好地改进服务,该服务目前位于从 MySQL 数据库填充的表中,并在 php 中内置了一些过滤器,我希望能够识别已停止运行的链接。

我的想法是,当从 MySQL 数据库中检索数据时,将检查下载 URL 列条目(文件或文件主机页面的 url)以查看它们是否链接到允许用户开始下载的实际文件共享页面进程,如果他们正在工作并提供下载文件的能力,他们应该留下,链接文本或单元格颜色变为绿色,如果文件站点显示文件未找到或类似,链接文本或单元格背景颜色应变为红色。

目前没有活动或非活动链接的快速和简单的视觉表示。

我根据是否收到 404 错误对 url 进行了简单的验证,但很快意识到,鉴于这些网站没有 404 或重定向,它们将无法正常工作,它们会更改动态生成的页面以说明文件不可用或文件已被删除等。

我还合并了一个使用第三方文件共享链接检查服务的链接检查器脚本,但这需要手动检查和手动更新数据库。

我还检查了是否可以在页面上找到特定的字段或单词,但是给定的网站范围和网站上使用的更广泛的术语已被证明是准确的,并且难以在所有链接上实施.

如果可以根据活动状态过滤掉 url,这也会很有帮助。我猜如果颜色变化是由链接类或单元类样式管理的,我可以根据类过滤列,例如:链接死或链接活动。我想我可以做到这一点,因此不一定需要对基于类的过滤提供最后一点帮助。

任何帮助将不胜感激。

0 投票
2 回答
187 浏览

coldfusion - 迁移到新服务器后如何验证站点?

我们目前正在设置新服务器,以便从旧的 Windows 2003/Coldfusion 8 服务器升级到 Windows 2008/Coldfusion 9 服务器。

这不是一个简单的迁移。IIS 和 Coldfusion 中更新/更改的功能迫使我们更改代码和设置以及一点点。

我们想知道是否有某种程序,甚至是基于云的服务,我们可以使用它来比较迁移前后的站点。我想简单的链接检查就足够了,但要彻底彻底,我们想知道是否有一种解决方案也可以检查页面的内容。(这是我们老板的想法,考虑到网站可能有多大,我怀疑这是一项可行的任务;所以我很乐意检查链接并比较响应状态。)

我想目标是如果“foo.cfm”在迁移之前是好的,但是之后抛出 500 个服务器错误,我们就会知道需要查看一些东西。

我知道链接检查器很常见,但不知道是否有任何支持这种功能(比较一个运行的结果)。我也想不出如何在 Google 搜索中准确地表达这一点,所以我想我会在 StackOverflow 上向伟大的思想家提问。

提前感谢您的帮助!

0 投票
0 回答
293 浏览

selenium-rc - How to do 404 link testing through selenium rc for complete website?

How can i verify a complete website's link(mostly links that are redirecting to 404 page) by using Selenium RC. Previously I tried to do this thong by using xenu and web link validator but in there results most of the links are showing 500 internal serevr error. And for the pages they are showing 500 internal server error actually don't exists in the web site.

So what is the concept if we can crawl through the website using Selenium RC.?

0 投票
1 回答
1265 浏览

broken-links - 如何构建断开的链接检查器工具?

我计划为网站构建一个断开的链接检查器工具。你们能否让我知道在构建工具时我需要使用哪些工具。我有 JavaScript、ExtJS、jQuery 和 PHP 方面的经验。任何帮助/建议将不胜感激。