2

我正在尝试使用 RCurl 和 XML 包从 WSJ(华尔街日报)下载和挖掘文章。但是,每当我从 RCurl 使用 getURL 时,我都会得到可供公众查看的文章版本。

我想做的是下载文章的完整版本——因为我是付费会员。我想我必须通过登录凭据,当我调用函数 getURL 时,但是,我不知道该怎么做..

  1. 这些信息是否存储在 cookie 中?
  2. 我是否需要“经过身份验证”-无论区别(可能是有意的)是什么?

如果有人能解释诸如 WSJ 之类的网站如何使用登录信息来获取数据,以及我如何调整 RCurl 以考虑这些信息,我将不胜感激。一个非常简单的示例将有助于解释设置 cookie(文件、jar、..)等的不同概念

先感谢您

4

1 回答 1

1

通常,身份验证信息不存储在 cookie 中。相反,“会话 cookie”存储在您的计算机上 - 并指的是存储在服务器上的身份验证。有关更多信息和提示,请参阅Wikipedia 上的会话管理文章。

所以基本上你需要为这个站点创建一个 cookie jar 文件,使用 curl 登录(这可能很痛苦,因为 WSJ 不使用标准的基于表单的 POST,而是依赖于 javascript),然后你就可以告诉 curl 对文章的以下请求重新使用 cookie。阅读此答案以了解如何在实践中做到这一点。

于 2013-10-14T15:08:03.710 回答