0

我有一些 HTML 需要解析为文本(在一个大文档中),我感兴趣的部分如下所示:

...
<div id="whatever" class="whatever whatever">some title with <em>html</em> and other such tags in it, but never a div tag</div>
...

现在我想用 HTML 摆脱 DIV 中的文本。这是正则表达式(使用组)的内容:

<div id=\"whatever\" class=\"whatever whatever\">(?<title>[^</div>]*?)</div>

所以我的想法是我将匹配整个内容,并获得一个包含所有文本的组,直到出现 </div > 的点(因为字符串末尾没有其他识别因素)。

[] 中的 ^ 不起作用,因为它是这些字符中的“任何”,而不是我想要的字符串“< /div >”。任何想法我如何使这项工作?

4

1 回答 1

0
Match m=Regex.Match(s,"\\<div id=\"whatever\" class=\"whatever whatever\">(.*?)\\<\\/div\\>");                                                       
Console.WriteLine(m.Groups[1].Value);
于 2012-06-11T00:28:37.017 回答