我需要找到一种方法来抓取我们公司的一个 Web 应用程序,并从中创建一个静态站点,该站点可以刻录到 cd 上,供旅行销售人员用来演示该网站。后端数据存储分布在很多很多系统上,因此简单地在销售人员笔记本电脑上的虚拟机上运行站点是行不通的。他们在某些客户端(没有互联网,手机......原始,我知道)时将无法访问互联网。
有没有人对可以处理链接清理、flash、一点 ajax、css 等事情的爬虫有什么好的建议?我知道可能性很小,但我想在我开始编写自己的工具之前我会在这里提出这个问题。
我需要找到一种方法来抓取我们公司的一个 Web 应用程序,并从中创建一个静态站点,该站点可以刻录到 cd 上,供旅行销售人员用来演示该网站。后端数据存储分布在很多很多系统上,因此简单地在销售人员笔记本电脑上的虚拟机上运行站点是行不通的。他们在某些客户端(没有互联网,手机......原始,我知道)时将无法访问互联网。
有没有人对可以处理链接清理、flash、一点 ajax、css 等事情的爬虫有什么好的建议?我知道可能性很小,但我想在我开始编写自己的工具之前我会在这里提出这个问题。
通过使用WebCrawler,例如其中之一:
只是因为没有人复制粘贴一个工作命令......我正在尝试......十年后。:D
wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org
它对我来说就像一个魅力。
wget 或 curl 可以递归地跟踪链接并镜像整个站点,因此这可能是一个不错的选择。您将无法使用网站的真正交互式部分,例如搜索引擎或任何修改数据的东西,尽管如此。
是否有可能创建可以在销售人员的笔记本电脑上运行的虚拟后端服务,应用程序可以与之交互?
如果不将网络服务器刻录到 CD,您将无法处理诸如 AJAX 请求之类的事情,我知道您已经说过这是不可能的。
wget将为您下载站点(使用 -r 参数表示“递归”),但任何动态内容(如报告等)当然都无法正常工作,您只会得到一个快照。
如果你最终不得不从网络服务器上运行它,你可能想看看:
它允许您从 CD 上运行 WAMPP 堆栈,并提供 mysql/php/apache 支持。db 在启动时被复制到当前用户的临时目录,并且可以完全运行而无需用户安装任何东西!