0

这是我的正则表达式

Dim TableHeaderExpression As String = "<th[^>]*>(.*?)</th>"

这是我的 HTML

<th class="seller-col">
 <b>Relevanz</b>
 <span class="ps-sprite ps-sprite-sortdw" title=""></span>
 </th>

这个表达式给了我 th 标签内的所有东西,所以它输出

<b>Relevanz</b>
     <span class="ps-sprite ps-sprite-sortdw" title=""></span>

但我如何让它只输出

Relevanz

意思是忽略里面的所有文字,<th>除了里面的东西<b>

4

1 回答 1

1

不要使用 Regex 来解析 HTML(不是最佳选择),而是使用HTML Agility Pack来解析和查询 HTML。

这是一个敏捷的 HTML 解析器,它构建一个读/写 DOM 并支持普通的 XPATH 或 XSLT(实际上你不必了解 XPATH 或 XSLT 就可以使用它,不用担心......)。它是一个 .NET 代码库,允许您解析“网络之外”的 HTML 文件。解析器对“真实世界”格式错误的 HTML 非常宽容。对象模型与 System.Xml 的提议非常相似,但用于 HTML 文档(或流)。

于 2012-10-29T20:56:08.380 回答