“rvest”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

2016 浏览

r - 不知道如何从这个网站上抓取数据（使用 R）

我正在尝试使用 R 从以下站点抓取数据：http: //www.soccer24.com/kosovo/superliga/results/#

我可以执行以下操作：

但我对如何真正获取数据感到困惑。这是因为网站上的实际数据似乎是由 Javascript 生成的。我能做的是

但这给出了一长串奇怪的文本（其中确实包括数据，但散布着奇怪的代码，而且我完全不清楚我将如何解析它。

我要提取的是所有比赛的比赛数据（日期、时间、球队、结果）。本网站不需要其他数据。

任何人都可以提供一些关于如何从该站点提取数据的提示吗？

r web-scraping rvest rselenium

2015-04-03T11:57:49.933

0 投票

2 回答

3762 浏览

r - 我怎样才能抓取这些数据？

我想从这个页面抓取统计数据：

具体来说，我想获取 Stuart 头像下方的表格中的数据。标题为“Stuart Appleby - 2015 STATS PGA TOUR”

我尝试将rvest, 与 Selector Gadget ( http://selectorgadget.com/ ) 结合使用。

'应该'让我得到表格，例如，顶部没有显示“Recap - Rank - Additional Stats”的行

'应该'让我得到带有“Recap - Rank - Add'l Stats”行的表格。

也不行。

Obvs 在网络抓取方面，我完全是新手。当我单击该网页的“查看源代码”时，表格中包含的数据不存在。

在源代码中，我认为应该从表开始，是这段代码：

因此，该表似乎存储在函数无法访问的某个地方（Json？Jquery？Javascript？这些术语是否适用于这里？）html()。有没有办法rvest用来获取这些数据？是否有rvest用于抓取以这种方式存储的数据的等价物？

谢谢。

r web-scraping rvest

2015-04-08T15:15:23.617

0 投票

0 回答

523 浏览

html - 使用 rvest 包从 html 页面中提取属性

我正在尝试从该站点 http://www.mycity4kids.com/Delhi-NCR/Schools_bl提取数据

我在这里需要的信息在上面的第 4 行代码片段中，即“/Delhi-NCR/Schools/Amazon-Public-School_Sector-56-Gurgaon/5038_bd”我想不出办法。
建议尽快这样做！

html r attributes rvest

2015-04-08T18:19:19.380

0 投票

1 回答

168 浏览

r - 如何捕获由站点生成的文档（使用 R）

我正在尝试下载pdf文件如下：（由于这是一个商业网站，我不得不替换下面的url、用户名和密码）

这是一个包含公司互动数据的网站。了解了 api，我已经弄清楚了我感兴趣的每个报告的页面名称。页面上有一个“下载 pdf”按钮。当我单击此按钮时，该站点会动态生成 pdf 格式的报告并返回报告（具有随机名称，例如“97da08491e3e41447f591c2b668c0602.pdf”。我认为它为此使用 wkhtml2pdf。我使用以下代码单击该按钮：

当点击“下载pdf”按钮时，该文档由站点生成，然后由Chrome保存。（随机名称每次都不同，我无法使用类似的东西download.file()来获取它）这很好，除了文档是用这个随机名称保存的。相反，我想捕获网站返回的 pdf，然后使用更具信息性的名称保存它（我必须这样做数百次，所以我不想手动按顺序浏览所有 pdf查找有关特定公司的报告）。

所以，我的问题是：如何捕获由站点动态生成和返回的 pdf，然后以我自己选择的名称保存它？

（对于无法提供该网站的链接，我深表歉意，但这是一个我不允许公开分享的专有网站。但是，我希望这个问题可能对更多人和更多网站有用）。

r httr rvest rselenium

2015-04-11T09:56:17.620

0 投票

1 回答

399 浏览

html - htmlParse - 内部文本

我需要从 R 中使用 htmlParse (package: XML) 的 html 文档中抓取以下文本：

我正在使用此代码（代码示例）来抓取酒店的名称。但是，我需要添加酒店的评级：

html r parsing rvest

2015-04-15T17:24:29.750

0 投票

2 回答

3368 浏览

r - 使用 R 抓取受密码保护的网站

我想使用 R 网络抓取 yammer 数据，但为了这样做，首先我必须登录到这个页面，（这是我创建的应用程序的身份验证）。

https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg

一旦我登录到此页面，我就可以获取 yammer 数据，但所有这些都通过标准 yammer url ( https://www.yammer.com/api/v1/messages/received.json )在浏览器中

我已经阅读了类似的问题并尝试了这些建议，但仍然无法解决这个问题。

我尝试过使用 httr、RSelenium、rvest+Selector 小工具。

这里的最终目标是在 R 中做所有事情（获取数据、清理、情感分析......清理和情感分析部分已经完成，但目前获取数据部分是手动的，我想通过从 R 处理它来自动化它)

1.试用httr：

对应结果：响应 [https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg] 日期：2015-04-27 12:25 状态：200 内容类型：text/html；charset=utf-8 Size: 15.7 kB 该页面内容显示已打开登录页面但未验证。

2.试用选择器小工具+rvest

我尝试使用此方法抓取维基百科，但无法将其应用于 yammer，因为在调用 selctor 小工具提供的 html 标记之前需要进行身份验证。

3.试用RSelenium

使用标准浏览器和 phantomjs 进行了尝试，但出现了一些错误

remDr <- remoteDriver$new()

remDr$open() [1] "连接到远程服务器" RCurl 调用中的未定义错误。queryRD(paste0(serverURL, "/session"), "POST", qdata = toJSON(serverOpts)) 中的错误：

phantom() 中的错误：找不到 PhantomJS 二进制文件。

r yammer httr rvest rselenium

2015-04-23T08:43:08.370

0 投票

1 回答

376 浏览

r - R中的rvest服务器错误

我不是网络抓取专家，但很喜欢在 R 中使用 rvest。今天我尝试用它来抓取一个名为 JeFit 的特定健身网站，但出现以下错误。这是我的输入和输出：

我无法理解为什么 rvest 适用于我尝试的其他网站，但不适用于这个网站。任何帮助，将不胜感激。

r curl web-scraping rcurl rvest

2015-04-23T21:48:20.020

0 投票

2 回答

12572 浏览

r - 无限滚动抓取动态电子商务页面

我rvest在 R 中使用来进行一些抓取。我知道一些 HTML 和 CSS。

我想获取 URI 的每个产品的价格：

http://www.linio.com.co/tecnologia/celulares-telefonia-gps/

当您在页面上向下移动时（当您进行一些滚动时），新项目就会加载。

到目前为止我所做的：

我得到了我需要的东西，但仅适用于前 25 个元素（默认加载的那些）。

问题：如何获取这个动态部分的所有元素？

我想，我可以滚动页面直到所有元素都加载完毕，然后使用 html(URL)。但这似乎需要做很多工作（我计划在不同的部分这样做）。应该有一个程序化的工作。

r web-scraping infinite-scroll rvest

2015-04-25T04:46:10.303

0 投票

1 回答

1476 浏览

r - rvest 缺失节点 --> NA

我正在尝试使用 R 中的 rvest 在 html 文档中搜索节点。在下面的代码中，我想知道当“s_BadgeTop*”丢失时如何返回 NULL 或 NA。它仅用于学术目的。

我需要一个具有这种结构的data.frame：

约翰（前 1000 名评论员）
玛丽娜
坎迪斯（前 500 名评论员）

我试过这段代码：

但是 status[is.na(status)] <- "NA" 不起作用。

我得到这个输出：

约翰（前 1000 名评论员）
玛丽（前 500 名评论员）
坎迪斯（前 1000 名评论员）

谢谢！

r parsing rvest

2015-04-26T12:11:41.937

0 投票

1 回答

2200 浏览

r - R Rvest for() 和错误服务器错误：（503）服务不可用

我是网络抓取的新手，但我很高兴rvest在 R 中使用它。我试图用它来抓取公司的特定数据。我创建了一个 for 循环（171 个 url），当我运行它时，它在第 6 个或第 7 个 url 处停止并出现错误

当我从第 7 个 url 开始我的循环时，它会再运行两个或三个，然后再次停止并出现相同的错误。我的循环

可能有办法避免这个错误，提前谢谢你，任何帮助将不胜感激。

UPD 使用下一个代码，我正在尝试重新启动获取数据的循环，从最后一个成功的循环开始repeat()，但它正在无限循环，希望得到一些建议。

或与while()

While()工作，但不是很好而且太慢（（

r loops error-handling scrape rvest

2015-04-28T20:32:34.977

问题标签 [rvest]

Reference