我正在设计一个网络爬虫来从网站获取产品列表。我尝试过简单的 HTML DOM 解析器和file_get_contents()来获取 HTML 并解析它。但是获取 HTML 内容需要花费太多时间。还有很多解析开销,因为它是一个巨大的页面。如果可能的话,我正在寻找一种方法来仅获取所需的 HTML 内容以加快获取速度。喜欢.. 在 file_get_contents() 中使用 offset 和 maxlen 参数。但是远程文件不支持搜索(偏移)。
string file_get_contents ( string $filename,false, 9000, 5000)
还有其他方法可以做到这一点吗?