0

我想从需要身份验证的页面下载网页源代码,在 Linux 机器中使用 shell 脚本或类似的东西(如 Perl、Python 等)。

我尝试使用 wget 和 curl,但是当我传递 URL 时,正在下载的源代码用于要求我提供凭据的页面。同一页面已经在 Firefox 或 Chrome 上打开,但我不知道如何重新使用此会话。

基本上我需要做的是定期在此页面上运行刷新,并 grep 以获取源代码中的一些信息。如果我找到了我要找的东西,我会触发另一个脚本。

- 编辑 -

Tks @Alexufo 。我设法使它工作,这样:

1 - 下载 Firefox 插件以允许我将 cookie 保存在 TXT 文件中。我使用了这个插件:https ://addons.mozilla.org/en-US/firefox/addon/export-cookies/

2 - 登录我想要的网站,并保存 cookie。

3 - 使用 wget:

wget --load-cookies=cookie.txt 'http://my.url.com' -O output_file.txt

4 - 现在页面源代码在 output_file.txt 中,我可以按照我想要的方式解析。

4

2 回答 2

0

机械化(http://mechanize.rubyforge.org/)可以做到这一点。为此,我将它(一起)与 Ruby 2.0.0 一起使用。

于 2013-10-15T13:19:50.990 回答
0

CURL 应该可以在任何地方使用。

1) 对自动化进行第一响应。节省厨师。2) 当您尝试第二个响应以获取源页面代码时,请使用厨师。

更新:Wget 应该与 带有身份验证 update2的 curl wget等后自动化一起使用: http ://www.httrack.com/

于 2013-10-15T13:22:04.673 回答