我需要使用包RCurl来下载各种URL的内容(使用认证等)。为了优化下载速度,我想限制下载的响应输出行/字符,因为我只需要每页的前 20 行,整个内容的大小可能非常大。
使用 readLines 可以快速完成,例如:
readLines("http://www.nytimes.com/", n = 20L)
但是使用 RCurl 并指定最大字符参数我没有得到预期的结果:
test <- getURL("http://www.nytimes.com/", write = basicTextGatherer(max = 1000))
> nchar(test)
[1] 125709
根据 RCurl常见问题页面,自定义回调函数应该可以解决问题,但是,我不完全知道如何。