我正在从 PubMed Central 解析 XML 文档,有时我会找到带有嵌套表的段落,如下例所示。R中有没有办法获取文本并排除表格?
doc <- xmlParse("<sec><p>Text</p>
<p><em>More</em> text<table>
<tr><td>SKIP</td><td>this</td></tr>
</table></p>
</sec>")
xpathSApply(doc, "//sec/p", xmlValue)
[1] "Text" "More textSKIPthis"
我想返回没有嵌套表行的段落。
[1] "Text" "More text"