我正在制作一个 PHP 爬虫来探索名为 alza.cz 的电子商店。我想要该电子商店中所有产品的链接。我在地址:http ://www.alza.cz/notebooky/18842920.htm .,但是这个只显示前 21 个项目。要获得所有物品,我必须前往地址:http ://www.alza.cz/notebooky/18842920.htm#f&pg=1/10000 。
爬虫用于file_get_contents
获取页面的 HTML,然后使用 DOM 对其进行解析。问题是,它看起来file_get_contents
忽略了 # 之后的那部分(只返回前 21 个项目而不是全部)。有任何想法吗?