我正在通过抓取页面 URL 并<link>
在页面标题中查找标签来构建 rss 提要发现服务。file_get_contents($url)
问题是某些 URL 需要很长时间才能为页面源提供服务,因此我的代码经常被卡住。
有没有办法通过预定义的超时来做到这一点,例如,如果 10 秒过去了,仍然没有提供内容,那么只需删除该 URL 并移至下一个?
我正在考虑使用该maxLen
参数来仅获取源的一部分(<head>..</head>
),但我不确定在达到接收到的字节后这是否真的会停止,仍然需要完整的页面加载。另一个问题是我不知道在此处设置什么值,因为每个页面在head
标签中都有不同的内容,因此大小会有所不同。