“rcurl”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

576 浏览

r - RCurl::url.exists() ：如何为重定向获取非错误（在 300 范围内的 HTTP 状态代码中）

我有一堆通过文本挖掘一些 PDF 文档提取的 URL。现在我想测试 URLS 的有效性。某些 url 内部或附加了垃圾字符，或者 URL 被截断。一种方法是通过调用它们中的每一个来过滤它们。

为此，我使用 url.exists() 了 RCurl 包中的函数。该函数使用 curl 向 url 发出 HTTP HEAD 请求并检查状态代码。

从文档?url.exists

我怎样才能让它为发出重定向的 url 返回 TRUE？重定向状态代码在 300 范围内。它们并不是真正的错误。

或者，还有更好的方法？获取实际状态代码并手动处理它们？我应该在这里使用系统命令吗？

2013-03-11T16:24:10.927

0 投票

2 回答

852 浏览

r - 在 RCurl 中创建 C 级文件句柄，用于写入下载的文件

在 RCurl 中，定义了一个函数和一个类CFILE来处理 C 级文件句柄。从手册：

目的是能够将这些作为选项传递给 libcurl，以便它可以读取或写入文件。我们也可以使用 R 连接来执行此操作，并指定操作这些连接的回调函数。但是对于大文件，使用 C 级 FILE 句柄可能会明显更快。

没有与下载相关的示例，所以我尝试了：

我还尝试将file选项替换为writedata = f@ref. 文件已下载，但已损坏。为参数编写自定义回调write仅适用于非二进制数据。

在 RCurl 中将二进制文件直接下载到磁盘（而不将其加载到内存中）的任何想法？

r curl rcurl

2013-03-17T00:24:25.687

0 投票

1 回答

649 浏览

facebook - 如何使用 R 流式传输和保存 Facebook 公开帖子？

我正在尝试通过 R 流式传输和保存公共帖子。我已经获得了令牌并进行了搜索。这就是我所做的。

要求（RCurl）

要求（rjson）

数据 <- getURL(" https://graph.facebook.com/search?q=multishow&type=post&access_token=my_token ")

没关系，“数据”角色找到了一些东西。现在，如何将这个“数据”字符转换为数据框？是否可以在特定超时期间流式传输此搜索？

谢谢。

更新：

好的，现在我可以解析来自 Facebook 的 JSON 结果，但我仍然坚持正确地转换为 data.frame 并流式传输以获取新帖子。按照下面的代码：

无论哪种方式，我都会得到一个带有 1 或 2 个观察值和数百个变量的 data.frame。我做的最后一次搜索，我得到了我的第一个观察值，有 42 个变量，第二个有 13 个变量，依此类推。我该如何处理它的任何线索？

facebook r rcurl rjson

2013-03-26T03:06:09.020

0 投票

2 回答

2802 浏览

json - 在 R 中解析 Facebook JSON 结果

我已经阅读了其他问题，但我仍然不知道如何在 R 中解析 Facebook Graph Search 结果。我的主要目标是转换为数据框之类的东西，以分析一些列。

更新：谢谢@user1609452

现在如果我想包含嵌套在“喜欢”中的“计数”怎么办？让我展示：

在这种情况下，我应该如何设置 match.fun 参数？

有人能帮助我吗？

如果我想包含“计数”，嵌套在“喜欢”中？让我展示：

在这种情况下，我应该如何设置 match.fun 参数？

有人能帮助我吗？

json r facebook-graph-api rcurl rjsonio

2013-04-02T07:01:39.277

0 投票

2 回答

4326 浏览

html - 使用 readHTMLTable 检索 html 表格

我正在尝试在R中从新交所网站检索价格。

html r web-scraping html-table rcurl

2013-04-02T10:35:37.957

0 投票

1 回答

8377 浏览

asp.net - 如何使用 R 登录然后从 aspx 网页下载文件

我正在尝试使用 R 自动下载此网页上可用的收入动态面板研究文件。单击这些文件中的任何一个都会将用户带到此登录/身份验证页面。身份验证后，您可以使用 Web 浏览器轻松下载文件。不幸的是，下面的代码似乎没有维护身份验证。我已经尝试在 Chrome 中检查 Login.aspx 页面（如此处所述），但即使我相信我传递了所有正确的值，它似乎也无法维持身份验证。我不在乎它是否完成了 httrHeadershttrRCurl或其他东西，我只是喜欢在 R 中工作的东西，所以我不需要这个脚本的用户必须手动或使用一些完全独立的程序下载文件。我的尝试之一如下，但它不起作用。任何帮助，将不胜感激。谢谢！！:D

asp.net r download rcurl httr

2013-04-06T16:25:04.083

0 投票

1 回答

79 浏览

r - 使用 HTTP 请求从冗余 URI 中识别 Web 对象

我正在为一个结构不正确的网络服务器日志文件而苦苦挣扎，我想总结一下以分析托管站点的出席情况。对我来说不幸的是，该站点的架构很混乱，因此没有托管对象（html 页面、jpg 图像、pdf 文档等）的索引，而多个 URI 可以引用同一页面。例如：

http://www.site.fr/main.asp?page=foo.htm
http://www.site.fr/storage-tree/foo.htm
http://www.site.fr/specific.asp?id=200
http://www.site.fr/specific.asp?path=/storage-tree/foo.htm

等等，在重复的 URI 之间没有任何明显的规律性。

如何在概念上和实践上有效地识别页面？正如我看到的问题，这个想法是构建一个索引，将日志的 URI 与从 http 请求构造的唯一对象标识符链接起来。存在三个松散的约束：

我将 R 用于统计部分，因此也更愿意将其用于 http 处理
日志包含数十万个不同的 URI（其中包括表单、搜索和数据库查询），因此速度可能是一个问题
如果我想在三天或一个月内判断这个新的 URI 是一个已知的先前标识的页面，我已经存储了我用来评估两个 URI 引用同一页面的特性。然后，存储空间是一个问题。

r http rcurl httr

2013-04-08T14:17:51.083

0 投票

2 回答

439 浏览

r - 通过 RCurl 发布表单时避免服务器证书错误

尝试通过以下方式发布表单时出现此证书验证错误RCurl::postForm()：

还不太熟悉 POST 表单，谁能告诉我我做错了什么？

产生错误的示例

我查看了http://goo.gl/qOf5t的源代码并确定了列出的第一个航班的 POST 形式（截至 2013 年 4 月 9 日，这是 FFM - NY 为 437,97 欧元）：

然后我解雇了这个：

r post curl web-scraping rcurl

2013-04-09T11:08:23.870

0 投票

0 回答

6463 浏览

r - 通过代理服务器使用 twitteR

我正在尝试使用twitteR包下载 Twitter 数据。

我不断收到错误消息

“功能错误（类型、味精、asError = TRUE）：无法连接到主机”

我相信这是因为我在我的工作计算机上执行此操作，并且我需要传递代理服务器的详细信息。

为了测试这一点，我尝试了一个关于R 的代理设置的类似问题的答案之一中给出的示例。

如果我输入：

然后我收到与尝试使用 twitteR 时相同的错误消息：

“功能错误（类型、味精、asError = TRUE）：无法连接到主机”

但是，如果我传递代理服务器的详细信息，那么它就没有问题：

但是，我在将代理服务器的详细信息传递给twitteR时遇到问题。我尝试使用以下方法在 R 的Rprofile.site文件中设置它：

但它似乎没有做任何事情来解决问题。我哪里错了？

编辑 1：这是我试图运行的代码，现在我看到它让我意识到这可能更像是一个 ROAuth 问题：

编辑2：

下面的代码似乎让我在那里。如果我设置了这些选项，那么我可以开始与 Twitter 的握手过程（间歇性地，它有时仍然会失败）。

然后我被要求在跟踪 URL 后从 Twitter 输入一个 pin（我不得不费力地输入，因为由于某种原因它不会让我复制/粘贴它）。然后我似乎在握手失败之前完成了握手。这是详细的输出（删除/更改了一些细节）：

r proxy twitter rcurl

2013-04-19T09:57:44.767

0 投票

1 回答

1112 浏览

r - 从多个 URL 自动下载，处理反馈对话框 / cookie

我尝试从该站点批量下载 CORINE Landcover zip 文件，但我认为来自 Google Analytics 的相互关联的反馈调查窗口在这里造成了麻烦。这些问题是否有某种 Curl 处理程序？

我在 sqlite manager 中查看了 cookie，这些是条目：baseDomain = "europa.eu", name = "clc06_c133.zip", value = "sectors%3Denvironment", host = "www.eea.europa.eu",。 . cookie 路径是“C:\Users\Kay\AppData\Roaming\Mozilla\Firefox\Profiles\ckut8fjm.default\cookies.sqlite”

r cookies download rcurl

2013-04-20T08:05:52.320

问题标签 [rcurl]

产生错误的示例

Reference