webkit - 抓取在 URL 中使用井号标签的页面

翻译自：https://stackoverflow.com/questions/13161103 2012-10-31T15:12:39.117

228 次

我正在构建一个工具，用于获取有关网站的一些基本元数据（与 Facebook 在您尝试共享链接时所做的相同）：标题、描述和主图像。这对于带有Nokogiri、BeautifulSoup或许多其他工具的 HTML 页面来说相当简单。

但是，大量使用 ajax 的页面呢？一些网站，尤其是那些使用哈希片段的网站可能会响应Google AJAX 抓取标准并使用_escaped_fragment_，但我认为这不是大多数。

是否有任何使用PhantomJS或无头 Chrome / Webkit 来建立爬网农场的稍微可扩展的解决方案？还是有另一种方法可以无头执行 JS 并提取生成的 HTML？

支持屏幕截图的工具的奖励积分：D

0 回答 0