php - 网络爬虫：仅获取有用的 html 内容以加快 php 中的获取速度

Question

我正在设计一个网络爬虫来从网站获取产品列表。我尝试过简单的 HTML DOM 解析器和file_get_contents()来获取 HTML 并解析它。但是获取 HTML 内容需要花费太多时间。还有很多解析开销，因为它是一个巨大的页面。如果可能的话，我正在寻找一种方法来仅获取所需的 HTML 内容以加快获取速度。喜欢.. 在 file_get_contents() 中使用 offset 和 maxlen 参数。但是远程文件不支持搜索（偏移）。

 string file_get_contents ( string $filename,false, 9000, 5000)

还有其他方法可以做到这一点吗？

score 1 · Accepted Answer

Range可以使用请求中的标头在 HTTP 协议级别执行此操作。但是，不能保证其他服务器理解或尊重它们。此外，您真的知道您感兴趣的内容的确切字节偏移量吗？听起来那会很脆。此外，如果您只获取部分 HTML 文档，您可能很难解析它。

查看有关设置 HTTP 标头的 Contexts的$context参数和相关文档并尝试使用标头。file_get_contentsRange

php - 网络爬虫：仅获取有用的 html 内容以加快 php 中的获取速度

1 回答 1

Related

Reference