我正在研究一种检测我网站上的污损的方法。这个想法是爬取整个网站和每个页面,截取屏幕截图或将网站呈现为图像,并将其与上次检查页面的时间进行比较。
我正在寻找一种将整个网页(HTML、CSS、JS)转换为图像的方法,例如屏幕截图,无论语言是什么(但我更喜欢 Java、Python 或 C#)
我需要它在服务器上快速且可用。
我已经在 Java 中尝试过以下操作:
- CssBox,但是渲染不够好(没有JS)
- Selenium Web 驱动程序,但它太慢了(是时候打开 firefox,显示页面等......)并且没有 GUI 就无法使用
我认为一个解决方案将是一种 Web 引擎的包装器,但我没有找到任何关于它的东西(至少在 Java 中)。有人告诉我 PhantomJS 适合这种需求,对吗?
完美的结果是创建类似的东西:http: //www.page2images.com/home