javascript - 在 R 中抓取 javascript 网站

Question

我想从这个 url 中抓取比赛时间和日期：

http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary

通过使用 chrome 开发工具，我可以看到这似乎是使用以下代码生成的：

<td colspan="3" id="utime" class="mstat-date">01:20 AM, October 29, 2014</td>

但这不在源 html 中。

我认为这是因为它的 java （如果我错了，请纠正我）。如何使用 R 抓取这些信息？

score 15 · Accepted Answer

因此，RSelenium 不再是唯一的答案。如果您可以安装 PhantomJS 二进制文件（从此处获取 phantomjs 二进制文件：http://phantomjs.org/ ），那么您可以使用它来呈现 HTML 并使用它进行抓取rvest（类似于 RSelenium 方法，但不需要 java）：

library(rvest)

# render HTML from the site with phantomjs

url <- "http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary"

writeLines(sprintf("var page = require('webpage').create();
page.open('%s', function () {
    console.log(page.content); //page source
    phantom.exit();
});", url), con="scrape.js")

system("phantomjs scrape.js > scrape.html", intern = T)

# extract the content you need
pg <- html("scrape.html")
pg %>% html_nodes("#utime") %>% html_text()

## [1] "10:20 AM, October 28, 2014"

score 1 · Accepted Answer

您还可以使用 docker 作为网络驱动程序（代替 selenium）

您仍然需要安装 phantomjs 和 docker。然后运行：

library(RSelenium)

url <- "http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary"

system('docker run -d -p 4445:4444 selenium/standalone-chrome') 
remDr <- remoteDriver(remoteServerAddr = "localhost", port = 4445L, browserName = "chrome")
remDr$open()
remDr$navigate(url)

writeLines(sprintf("var page = require('webpage').create();
page.open('%s', function () {
    console.log(page.content); //page source
    phantom.exit();
});", url), con="scrape.js")

system("phantomjs scrape.js > scrape.html", intern = T)

# extract the content you need
pg <- read_html("scrape.html")
pg %>% html_nodes("#utime") %>% html_text()

# [1] "10:20 AM, October 28, 2014"

javascript - 在 R 中抓取 javascript 网站

2 回答 2

Related

Reference