我正在尝试解析特定的 HTML 字符串,以便我可以提取一组由<br/>
换行符分隔的行。输入 HTML 如下所示:
<div class="PlainText">
DATE: 2013-10-28 20:00:43 -0500 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
<br/> //Notice this has two break lines, i would like to stop after seeing two consecutive break lines.
</div>
使用更大的 html 文档中的这个 div,我能够得到HTML ChildNodes
List<HtmlNode> nodes = htmlDoc.DocumentNode
.Descendants("div")
.Where(x => x.Attributes.Contains("class") &&
x.Attributes["class"].Value.Contains("PlainText")).ToList();
我不完全确定从这里去哪里,我想阅读所有文本,直到我看到两条断线并停止?
编辑
我查看了nodes
Visual Studio 运行时检查器中的 childNodes 并注意到实际上没有两条连续<br/>
的线,而是一条断线和一个#text
标签,其 innerHTMl 是\n
一个换行符。