我正在尝试使用 RCurl 和 XML 包从 WSJ(华尔街日报)下载和挖掘文章。但是,每当我从 RCurl 使用 getURL 时,我都会得到可供公众查看的文章版本。
我想做的是下载文章的完整版本——因为我是付费会员。我想我必须通过登录凭据,当我调用函数 getURL 时,但是,我不知道该怎么做..
- 这些信息是否存储在 cookie 中?
- 我是否需要“经过身份验证”-无论区别(可能是有意的)是什么?
如果有人能解释诸如 WSJ 之类的网站如何使用登录信息来获取数据,以及我如何调整 RCurl 以考虑这些信息,我将不胜感激。一个非常简单的示例将有助于解释设置 cookie(文件、jar、..)等的不同概念
先感谢您