我遇到了一个问题,其中xmlValue
剥离了<br />
我需要保留的标签(或转换为我可以使用的其他字符strsplit
。
这是一个例子:
> f <- htmlParse(getForm("http://sites.target.com/site/en/spot/store_locator_popups.jsp", ajax="true", storeNumber=1889), asText=TRUE)
> xpathSApply(f, "//div[@class=\"sl_results_popup_address\"]", xmlValue)
[1] "1154 S Clark StChicago, IL 60605(312) 212-6300"
与它正在解析的 HTML 相比:
<div class="sl_results_popup_address">
1154 S Clark St
<br/>
Chicago, IL 60605
<br/>
(312) 212-6300
</div>
我试过, recursive=FALSE
了,但这似乎没有帮助。
如果它们是<p>
和</p>
换行符,那么它会更容易,因为我可以单独抓住它们,但<br/>
不包装文本我真的不能朝那个方向发展。希望只有一个选项可以降低在内部完成的剥离级别xmlValue
(或者可能在<br/>
文档解析阶段剥离 s ?)。