问题标签 [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 不知道如何从这个网站上抓取数据(使用 R)
我正在尝试使用 R 从以下站点抓取数据:http: //www.soccer24.com/kosovo/superliga/results/#
我可以执行以下操作:
但我对如何真正获取数据感到困惑。这是因为网站上的实际数据似乎是由 Javascript 生成的。我能做的是
但这给出了一长串奇怪的文本(其中确实包括数据,但散布着奇怪的代码,而且我完全不清楚我将如何解析它。
我要提取的是所有比赛的比赛数据(日期、时间、球队、结果)。本网站不需要其他数据。
任何人都可以提供一些关于如何从该站点提取数据的提示吗?
r - 我怎样才能抓取这些数据?
我想从这个页面抓取统计数据:
具体来说,我想获取 Stuart 头像下方的表格中的数据。标题为“Stuart Appleby - 2015 STATS PGA TOUR”
我尝试将rvest, 与 Selector Gadget ( http://selectorgadget.com/ ) 结合使用。
'应该'让我得到表格,例如,顶部没有显示“Recap - Rank - Additional Stats”的行
'应该'让我得到带有“Recap - Rank - Add'l Stats”行的表格。
也不行。
Obvs 在网络抓取方面,我完全是新手。当我单击该网页的“查看源代码”时,表格中包含的数据不存在。
在源代码中,我认为应该从表开始,是这段代码:
因此,该表似乎存储在函数无法访问的某个地方(Json?Jquery?Javascript?这些术语是否适用于这里?)html()。有没有办法rvest用来获取这些数据?是否有rvest用于抓取以这种方式存储的数据的等价物?
谢谢。
html - 使用 rvest 包从 html 页面中提取属性
我正在尝试从该站点 http://www.mycity4kids.com/Delhi-NCR/Schools_bl提取数据
我在这里需要的信息在上面的第 4 行代码片段中,即“/Delhi-NCR/Schools/Amazon-Public-School_Sector-56-Gurgaon/5038_bd”我想不出办法。
建议尽快这样做!
r - 如何捕获由站点生成的文档(使用 R)
我正在尝试下载pdf文件如下:(由于这是一个商业网站,我不得不替换下面的url、用户名和密码)
这是一个包含公司互动数据的网站。了解了 api,我已经弄清楚了我感兴趣的每个报告的页面名称。页面上有一个“下载 pdf”按钮。当我单击此按钮时,该站点会动态生成 pdf 格式的报告并返回报告(具有随机名称,例如“97da08491e3e41447f591c2b668c0602.pdf”。我认为它为此使用 wkhtml2pdf。我使用以下代码单击该按钮:
当点击“下载pdf”按钮时,该文档由站点生成,然后由Chrome保存。(随机名称每次都不同,我无法使用类似的东西download.file()来获取它)这很好,除了文档是用这个随机名称保存的。相反,我想捕获网站返回的 pdf,然后使用更具信息性的名称保存它(我必须这样做数百次,所以我不想手动按顺序浏览所有 pdf查找有关特定公司的报告)。
所以,我的问题是:如何捕获由站点动态生成和返回的 pdf,然后以我自己选择的名称保存它?
(对于无法提供该网站的链接,我深表歉意,但这是一个我不允许公开分享的专有网站。但是,我希望这个问题可能对更多人和更多网站有用)。
html - htmlParse - 内部文本
我需要从 R 中使用 htmlParse (package: XML) 的 html 文档中抓取以下文本:
我正在使用此代码(代码示例)来抓取酒店的名称。但是,我需要添加酒店的评级:
r - 使用 R 抓取受密码保护的网站
我想使用 R 网络抓取 yammer 数据,但为了这样做,首先我必须登录到这个页面,(这是我创建的应用程序的身份验证)。
https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg
一旦我登录到此页面,我就可以获取 yammer 数据,但所有这些都通过标准 yammer url ( https://www.yammer.com/api/v1/messages/received.json )在浏览器中
我已经阅读了类似的问题并尝试了这些建议,但仍然无法解决这个问题。
我尝试过使用 httr、RSelenium、rvest+Selector 小工具。
这里的最终目标是在 R 中做所有事情(获取数据、清理、情感分析......清理和情感分析部分已经完成,但目前获取数据部分是手动的,我想通过从 R 处理它来自动化它)
1.试用httr:
对应结果:响应 [https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg] 日期:2015-04-27 12:25 状态:200 内容类型:text/html;charset=utf-8 Size: 15.7 kB 该页面内容显示已打开登录页面但未验证。
2.试用选择器小工具+rvest
我尝试使用此方法抓取维基百科,但无法将其应用于 yammer,因为在调用 selctor 小工具提供的 html 标记之前需要进行身份验证。
3.试用RSelenium
使用标准浏览器和 phantomjs 进行了尝试,但出现了一些错误
remDr <- remoteDriver$new()
remDr$open() [1] "连接到远程服务器" RCurl 调用中的未定义错误。queryRD(paste0(serverURL, "/session"), "POST", qdata = toJSON(serverOpts)) 中的错误:
phantom() 中的错误:找不到 PhantomJS 二进制文件。
r - R中的rvest服务器错误
我不是网络抓取专家,但很喜欢在 R 中使用 rvest。今天我尝试用它来抓取一个名为 JeFit 的特定健身网站,但出现以下错误。这是我的输入和输出:
我无法理解为什么 rvest 适用于我尝试的其他网站,但不适用于这个网站。任何帮助,将不胜感激。
r - 无限滚动抓取动态电子商务页面
我rvest在 R 中使用来进行一些抓取。我知道一些 HTML 和 CSS。
我想获取 URI 的每个产品的价格:
http://www.linio.com.co/tecnologia/celulares-telefonia-gps/
当您在页面上向下移动时(当您进行一些滚动时),新项目就会加载。
到目前为止我所做的:
我得到了我需要的东西,但仅适用于前 25 个元素(默认加载的那些)。
问题:如何获取这个动态部分的所有元素?
我想,我可以滚动页面直到所有元素都加载完毕,然后使用 html(URL)。但这似乎需要做很多工作(我计划在不同的部分这样做)。应该有一个程序化的工作。
r - rvest 缺失节点 --> NA
我正在尝试使用 R 中的 rvest 在 html 文档中搜索节点。在下面的代码中,我想知道当“s_BadgeTop*”丢失时如何返回 NULL 或 NA。它仅用于学术目的。
我需要一个具有这种结构的data.frame:
- 约翰(前 1000 名评论员)
- 玛丽娜
- 坎迪斯(前 500 名评论员)
我试过这段代码:
但是 status[is.na(status)] <- "NA" 不起作用。
我得到这个输出:
- 约翰(前 1000 名评论员)
- 玛丽(前 500 名评论员)
- 坎迪斯(前 1000 名评论员)
谢谢!
r - R Rvest for() 和错误服务器错误:(503)服务不可用
我是网络抓取的新手,但我很高兴rvest在 R 中使用它。我试图用它来抓取公司的特定数据。我创建了一个 for 循环(171 个 url),当我运行它时,它在第 6 个或第 7 个 url 处停止并出现错误
当我从第 7 个 url 开始我的循环时,它会再运行两个或三个,然后再次停止并出现相同的错误。我的循环
可能有办法避免这个错误,提前谢谢你,任何帮助将不胜感激。
UPD 使用下一个代码,我正在尝试重新启动获取数据的循环,从最后一个成功的循环开始repeat(),但它正在无限循环,希望得到一些建议。
或与while()
While()工作,但不是很好而且太慢((