我正在尝试创建一个基本的网络爬虫,专门从广告中查找链接。
我设法找到了一个使用 cURL 来获取目标网页内容的脚本
我还发现了一个使用 DOM
<?php
$ch = curl_init("http://www.nbcnews.com");
$fp = fopen("source_code.txt", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_exec($ch);
curl_close($ch);
fclose($fp);
?>
这些都很棒,我当然觉得我正朝着正确的方向前进,除了相当多的广告是使用 JS 显示的,而且由于它是客户端,它显然没有被处理,我只看到 JS 代码而不是广告。
基本上,在我开始尝试提取链接之前,有什么方法可以让 JS 执行?
谢谢