r - 如何在 R 中使用 RSelenium 抓取文本？

Question

我想使用包 RSelenium从网站http://stats.statbroadcast.com/statmonit/?id=102197刮掉文本“VIRGINIA TECH”。

我想抓取的特定文本的 CSS 选择器是：

.valigntop:nth-child(1) .width6-3-4.marginr

打开远程驱动程序并导航到该站点后，我尝试：

webElem <- remDr$findElement(using = "css selector", '.valigntop:nth-child(1) .width6-3-4.marginr')
doc <- remDr$getPageSource()[[1]]
current_doc <- read_html(doc)
current_doc <- html_text(current_doc)

这将返回一大块文本，而不是我想要的文本“VIRGINIA TECH”。

刮掉我想要的东西后：

current_doc
[1] "VIRGINIA TECH"

任何帮助将不胜感激。如果需要任何进一步的信息，请告诉我。

score 1 · Accepted Answer

通过此链接阅读后，我发现这非常适合抓取我想要的文本。

webElems <- remDr$findElements(using = 'css selector', ".valigntop:nth-child(1) .width6-3-4.marginr")
current_doc <- unlist(lapply(webElems, function(x){x$getElementText()}))

结果：

current_doc
[1] "VIRGINIA TECH"

score 1 · Accepted Answer

简单的一个。

`webElems <- unlist(remDr$findElements(using = 'css selector', ".valigntop:nth-child(1) .width6-3-4.marginr")$getElementText())`

这也有效！

r - 如何在 R 中使用 RSelenium 抓取文本？

2 回答 2

Related

Reference