r - 如何使用 RCurl 从 WSJ 下载文章

Question

我正在尝试使用 RCurl 和 XML 包从 WSJ（华尔街日报）下载和挖掘文章。但是，每当我从 RCurl 使用 getURL 时，我都会得到可供公众查看的文章版本。

我想做的是下载文章的完整版本——因为我是付费会员。我想我必须通过登录凭据，当我调用函数 getURL 时，但是，我不知道该怎么做..

如果有人能解释诸如 WSJ 之类的网站如何使用登录信息来获取数据，以及我如何调整 RCurl 以考虑这些信息，我将不胜感激。一个非常简单的示例将有助于解释设置 cookie（文件、jar、..）等的不同概念

先感谢您

score 1 · Accepted Answer

通常，身份验证信息不存储在 cookie 中。相反，“会话 cookie”存储在您的计算机上 - 并指的是存储在服务器上的身份验证。有关更多信息和提示，请参阅Wikipedia 上的会话管理文章。

所以基本上你需要为这个站点创建一个 cookie jar 文件，使用 curl 登录（这可能很痛苦，因为 WSJ 不使用标准的基于表单的 POST，而是依赖于 javascript），然后你就可以告诉 curl 对文章的以下请求重新使用 cookie。阅读此答案以了解如何在实践中做到这一点。

1 回答 1