我正在构建一个工具,用于获取有关网站的一些基本元数据(与 Facebook 在您尝试共享链接时所做的相同):标题、描述和主图像。这对于带有Nokogiri、BeautifulSoup或许多其他工具的 HTML 页面来说相当简单。
但是,大量使用 ajax 的页面呢?一些网站,尤其是那些使用哈希片段的网站可能会响应Google AJAX 抓取标准并使用_escaped_fragment_
,但我认为这不是大多数。
是否有任何使用PhantomJS或无头 Chrome / Webkit 来建立爬网农场的稍微可扩展的解决方案?还是有另一种方法可以无头执行 JS 并提取生成的 HTML?
支持屏幕截图的工具的奖励积分:D