0

我需要从使用活动服务器页面的专有 CMS 迁移我们的网站。是否有工具或技术可以帮助从现有站点下载资源?我想我正在寻找一种可以抓取和抓取整个网站的工具。

另一个挑战是该站点使用 SSL 并受到基于表单的身份验证的保护。我有必要的凭据,我可以获取验证会话的 cookie,但我不确定从这里去哪里,如果现有工具可以帮助我,我不想重新发明轮子。

编辑 - 我正在使用 Windows 操作系统

4

4 回答 4

3

wget 可能是您使用的好工具

wget --load-cookies cookies.txt --mirror --page-requisites http://example.com/

添加 --convert-links 如果您希望使其更适合本地存档,而不是您可以在某处重新上传的内容。

wget 的 Windows 版本可从 sourceforge.net http://gnuwin32.sourceforge.net/packages/wget.htm上的 gnuwin32 项目获得

于 2009-05-19T05:14:44.667 回答
1
wget --http-user:username --http-pass:password -r http://yoursite.com 

这将获取整个站点(递归)。如果你在 Windows 上,你会想要安装 cygwin 或类似的东西来使用它,尽管我相信你可以下载 wget 的 Windows 版本/克隆。

于 2009-05-19T05:09:16.527 回答
1

如果您了解 Perl,您可能会喜欢WWW::Mechanize。取决于您尝试实现的自动化水平——wget在某些情况下可能会做得很好。

于 2009-05-19T05:10:37.007 回答
1

你有很多选择。要考虑的一件事是身份验证的复杂程度。除了wget,您还可以查看curl(一个非常强大的选项,绑定了许多不同的语言)、Python 的urllibApache HttpClientWWW-Mechanize等。

于 2009-05-19T05:13:49.813 回答