19

我想做一个每晚的 cron 作业来获取我的 stackoverflow 页面并将其与前一天的页面进行比较,这样我就可以看到我的问题、答案、排名等的更改摘要。

不幸的是,我无法获得正确的 cookie 集等来完成这项工作。有任何想法吗?

另外,当测试完成后,我的状态页面是否可以在不登录的情况下访问?

4

5 回答 5

9

您的状态页面现在无需登录即可使用(单击注销并尝试)。当 beta-cookie 被禁用时,您和您的状态页面之间将没有任何东西。

对于 wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
于 2008-08-05T20:43:52.017 回答
6

马克哈里森

这就是有效的...

curl -s --cookie soba=. https://stackoverflow.com/users

对于 wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
于 2008-08-05T22:04:12.947 回答
3

好主意 :)

我想你用过 wget 的

--load-cookies (filename)

可能会有所帮助,但使用类似 Mechanize(在 Perl 或 python 中)之类的东西来更充分地模仿浏览器以获得好的蜘蛛可能会更容易。

于 2008-08-05T20:43:31.733 回答
2

我也不知道如何让 cookie 工作,但是当我注销时,我能够在浏览器中访问我的状态页面,所以我认为一旦 stackoverflow 公开,这将工作。

这是一个有趣的想法,但你不会也选择底层 html 代码的差异吗?您是否有避免最终导致 html 差异而不是实际内容的策略?

于 2008-08-05T20:46:22.930 回答
2

这就是有效的...

curl -s --cookie soba=. http://stackoverflow.com/users
于 2008-08-05T21:22:42.467 回答