我想知道什么是最快和最简单的方法来获取字符串中标签之间的文本。
例如我有这个字符串:Lorem ipsum <a>dolor sit amet</a>, <b>consectetur</b> adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
我需要找到标签<a> </a>
和<b> </b>
.
谢谢你。
解析 HTML 是非常非常困难的,因为网页很少是正确的,你会发现很多不匹配的标签和奇怪的奇怪的东西。
如果这是用于现实世界的页面,请使用HTMLAgilityPack 。
<a>(.*)</a>.*<b>(.*)</b>
将在这种特殊情况下工作,但一般来说,用正则表达式解析 html 不是一个好主意。请改用 HTML/XML 解析器。
试试HTMLAgilityPack:这篇SO 帖子解释了如何使用它。
.+<a>(.+)</a>.+<b>(.+)</b>.+
第一个匹配组将包含 A 标记之间的文本,第二组包含 B 标记之间的文本。