php - 是否可以使用 Goutte/PHP 抓取基于 JavaScript 的网站？

Question

我想抓取几个网站，这些网站显然是使用 JavaScript 渲染的。具体来说，我想定位这个网站：http ://cve.mitre.org/find/index.html

这是我的代码：

$client = new Client();

$crawler = $client->request('GET', 'http://cve.mitre.org/find/index.html');
$form = $crawler->selectButton('Search')->form();
$crawler = $client->submit($form, array('search' => 'Symphony'));

print $crawler->html();

如果我查看源代码，我看不到 HTML，因为这个请求是由 JavaScript 完成的，那么，有人知道如何抓取这些网站吗？

score 3 · Accepted Answer

这个站点使用了一个懒惰的“谷歌自定义搜索”而不是自己实现，这意味着该站点带有各种 JavaScript 垃圾。

看起来实际的搜索可能是通过传统的表单提交完成的，您只需要使用 Google 呈现的元素发布到表单。然而，这可能并不那么容易，因为谷歌可能会检查推荐人等等，并且无论如何都会阻止它。

你有几个选择，我认为：

使用像 PhantomJS 这样的无头浏览器来运行搜索。您可以尝试直接驱动它，或者使用像 Spiderling 这样的东西。这肯定会起作用，但它比运行像 Goutte 这样的简单浏览器要慢一些，并且需要管理员权限才能在服务器上运行
domain:cve.mitre.org酌情直接用 a 刮谷歌
注册一个 Google 搜索 API 并直接使用它
尝试将所需的表单注入 Goutte 并将表单提交给 Google（在您尝试之前很难知道它是否会起作用）

php - 是否可以使用 Goutte/PHP 抓取基于 JavaScript 的网站？

1 回答 1

Related

Reference