1

制作一个简单的正则表达式来查找 url,然后有另一个脚本来查看该站点是否发回数据会容易得多吗?我一直想知道这是否会比花费数年时间开发“完美”的 url 检测正则表达式更快、更容易的解决方案,只是在几天后将其粉碎。

如果有人可以找到基本页面访问/加载的速度测试,请在此处发布以帮助回答我的问题。

此外,在服务器上不断发出这样的请求有多难,比如说……每小时 100 次?

我将使用Javascript对其进行测试,将/(http|www\.)\S+/gim其用作正则表达式和到请求的 url 的 60 秒超时连接。我会从 url 做一个简单的“Title Grab”,然后记录试用需要多长时间。一旦我得到他们所有的幻想,我会发布速度。

这真的不再是一个大问题了,所以如果你发现任何对我的上述想法有帮助的东西,你可能会收到这个“问题”的荣耀答案复选标记。

4

1 回答 1

2

我认为@Kobi 的观点是URL 的有效性与该URL 上资源的存在不同。有效的 URL 可能不指向当前资源。例如,URL http://bclennox.com/there-is-no-page-at-this-address将返回 404,即使它是一个完全有效的 URL,也可能会导致您的测试失败。

无论如何,如果您主要对给定 URL 返回的 HTTP 状态感兴趣,您可以发出 HTTP HEAD 请求而不是普通的 GET。HEAD 返回一个小得多的有效负载(只有标头),这应该会大大加快您的请求。

这是一个使用示例curl

$ curl -I http://bclennox.com
HTTP/1.1 200 OK
Date: Thu, 15 Mar 2012 03:14:59 GMT
Server: Apache
X-Powered-By: Phusion Passenger (mod_rails/mod_rack) 3.0.9, Enterprise Edition
ETag: "39cf7d1099a034de95dda297b18bfa2d"
X-UA-Compatible: IE=Edge,chrome=1
X-Rack-Cache: miss
X-Runtime: 0.139410
X-Request-Id: 50ce319e403ef4e6e468c2f4b9817691
Cache-Control: max-age=0, private, must-revalidate
Set-Cookie: _master_session=BAh7ByIQX2NzcmZfdG9rZW4iMWZhM0t1dTZiNjVWV1Q3YzlKVTZmdjRwK0FiWlpHUExVWXJnRlovd2R5aU09Ig9zZXNzaW9uX2lkIiU3YWEzZmNhYmYzYTQ2MDgwNTY5ZmU5MjhlNWU3ZDhmMA%3D%3D--c0f8c2bd6cccb1ff12f28da996dddbb50e448f1f; path=/; HttpOnly
Status: 200
Content-Type: text/html; charset=utf-8
于 2012-03-15T03:18:27.630 回答