r - 刮掉标题下的所有子段落（最好是 rvest）

Question

我的目标是library(tm)在相当大的 word 文档上使用该工具包。Word 文档有合理的排版，所以我们有h1主要部分，一些h2和h3副标题。我想对每个部分进行比较和文本挖掘（每个部分下面的文本h1- 副标题并不重要 - 因此可以包含或排除它们。）

我的策略是将 worddocument 导出为 html，然后使用 pacakgervest提取段落。

library(rvest)
# the file has latin-1 chars
#Sys.setlocale(category="LC_ALL", locale="da_DK.UTF-8")
# small example html file
file <- rvest::html("https://83ae1009d5b31624828197160f04b932625a6af5.googledrive.com/host/0B9YtZi1ZH4VlaVVCTGlwV3ZqcWM/tidy.html", encoding = 'utf-8')

nodes <- file %>%
  rvest::html_nodes("h1>p") %>%
  rvest::html_text()

我可以提取所有的<p>，html_nodes("p")但这只是一大汤。我需要分别分析每个h1。

最好的可能是一个列表，p每个h1标题都有一个标签向量。也许是一个类似的循环for (i in 1:length(html_nodes(fil, "h1"))) (html_children(html_nodes(fil, "h1")[i]))（不起作用）。

如果有办法从内部整理单词 htmlrvest

score 6 · Accepted Answer

请注意，这>是子组合器；您当前拥有的选择器会查找属于 anp子级的元素，这在 HTML 中没有意义，因此不返回任何内容。h1

如果您检查生成的标记，至少在您提供的示例文档中，您会注意到每个h1元素（以及被标记为 a 的目录的标题p）都有一个关联的父元素div：

<body lang="EN-US">
  <div class="WordSection1">
    <p class="MsoTocHeading"><span lang="DA" class='c1'>Indholdsfortegnelse</span></p>
    ...
  </div><span lang="DA" class='c5'><br clear="all" class='c4'></span>

  <div class="WordSection2">
    <h1><a name="_Toc285441761"><span lang="DA">Interview med Jakob skoleleder på
    a_skolen</span></a></h1>
    ...
  </div><span lang="DA" class='c5'><br clear="all" class='c4'></span>

  <div class="WordSection3">
    <h1><a name="_Toc285441762"><span lang="DA">Interviewet med Andreas skoleleder på
    b_skolen</span></a></h1>
    ...
  </div>
</body>

p每个部分中由 an 表示的所有元素h1都可以在其各自的 parent 中找到div。考虑到这一点，您可以简单地选择p每个h1. 但是，由于 rvest 目前没有办法从上下文节点中选择兄弟姐妹（html_nodes()仅支持查看节点的子树，即其后代），因此您需要以另一种方式执行此操作。

假设 HTML Tidy 创建了一个结构，其中每个h1都在div直接位于的 a 中body，您可以div使用以下选择器获取除目录之外的所有内容：

sections <- html_nodes(file, "body > div ~ div")

在您的示例文档中，这应该导致div.WordSection2and div.WordSection3。目录由表示div.WordSection1，从选择中排除。

然后从每个中提取段落div：

for (section in sections) {
  paras <- html_nodes(section, "p")
  # Do stuff with paragraphs in each section...

  print(length(paras))
}
# [1] 9
# [1] 8

如您所见，length(paras)对应p于每个div. 请注意，其中一些只包含一个 ，根据您的需要可能会很麻烦。我将把处理这些异常值作为练习留给读者。

不幸的是，因为 rvest 不提供自己的 HTML Tidy 功能，所以对我来说没有任何奖励积分。您将需要单独处理您的 Word 文档。

r - 刮掉标题下的所有子段落（最好是 rvest）

1 回答 1

Related

Reference