1

我正在设计一个网络爬虫来从网站获取产品列表。我尝试过简单的 HTML DOM 解析器file_get_contents()来获取 HTML 并解析它。但是获取 HTML 内容需要花费太多时间。还有很多解析开销,因为它是一个巨大的页面。如果可能的话,我正在寻找一种方法来仅获取所需的 HTML 内容以加快获取速度。喜欢.. 在 file_get_contents() 中使用 offset 和 maxlen 参数。但是远程文件不支持搜索(偏移)。

 string file_get_contents ( string $filename,false, 9000, 5000)

还有其他方法可以做到这一点吗?

4

1 回答 1

1

Range可以使用请求中的标头在 HTTP 协议级别执行此操作。但是,不能保证其他服务器理解或尊重它们。此外,您真的知道您感兴趣的内容的确切字节偏移量吗?听起来那会很脆。此外,如果您只获取部分 HTML 文档,您可能很难解析它。

查看有关设置 HTTP 标头的 Contexts的$context参数和相关文档并尝试使用标头。file_get_contentsRange

于 2012-11-07T08:30:11.447 回答