我rvest
用来解析网站。我正在用这些小的非破坏空间撞墙。如何删除
已解析的 html 文档中的元素创建的空白?
library("rvest")
library("stringr")
minimal <- html("<!doctype html><title>blah</title> <p> foo")
bodytext <- minimal %>%
html_node("body") %>%
html_text
现在我已经提取了正文:
bodytext
[1] " foo"
但是,我无法删除那个讨厌的空格!
str_trim(bodytext)
gsub(pattern = " ", "", bodytext)