http - 如何 curl 或 wget 网页？

Question

我想做一个每晚的 cron 作业来获取我的 stackoverflow 页面并将其与前一天的页面进行比较，这样我就可以看到我的问题、答案、排名等的更改摘要。

不幸的是，我无法获得正确的 cookie 集等来完成这项工作。有任何想法吗？

另外，当测试完成后，我的状态页面是否可以在不登录的情况下访问？

score 9 · Accepted Answer

您的状态页面现在无需登录即可使用（单击注销并尝试）。当 beta-cookie 被禁用时，您和您的状态页面之间将没有任何东西。

对于 wget：

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

score 6 · Accepted Answer

这就是有效的...

curl -s --cookie soba=. https://stackoverflow.com/users

对于 wget：

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

score 3 · Accepted Answer

好主意：）

我想你用过 wget 的

--load-cookies (filename)

可能会有所帮助，但使用类似 Mechanize（在 Perl 或 python 中）之类的东西来更充分地模仿浏览器以获得好的蜘蛛可能会更容易。

score 2 · Accepted Answer

我也不知道如何让 cookie 工作，但是当我注销时，我能够在浏览器中访问我的状态页面，所以我认为一旦 stackoverflow 公开，这将工作。

这是一个有趣的想法，但你不会也选择底层 html 代码的差异吗？您是否有避免最终导致 html 差异而不是实际内容的策略？

score 2 · Accepted Answer

2

这就是有效的...

curl -s --cookie soba=. http://stackoverflow.com/users

于 2008-08-05T21:22:42.467 回答

5 回答 5