xml - 获取 url 中的字符串（网页抓取）

Question

尽管我在少数情况下设法获得了一些内容，但我对网络抓取并不熟悉。然而，这一次虽然我的问题看起来很简单，但我无法在网页中获得包含符号、名称和市场的字符串。也就是说，我想在网址中获取字符串“Merck KGaA (MRK.DE) -XETRA”。我已经尝试了以下代码，它返回了几个表，但我无法得到我正在寻找的部分：

url <- 'https://finance.yahoo.com/q?s=MRK.DE&ql=0'
require(httr)
require(XML)
table <- readHTMLTable(content(GET(url)),header=TRUE)

score 1 · Accepted Answer

这可能不是这里最有效的脚本，但它肯定会起作用：

library(rvest)
library(magrittr)
library(stringr)

html(url) %>%
  html_nodes("h2") %>%
  extract2(3) %>%
  as('character') %>%
  str_replace('<h2>', '') %>%
  str_replace('</h2>', '')

[1] "Merck KGaA (MRK.DE)"

xml - 获取 url 中的字符串（网页抓取）

1 回答 1

Related

Reference