可能重复:
使用 C# 正则表达式删除 HTML 标记
我正在尝试编写仅返回 HTML 文件内容的代码。我认为最好的方法是围绕消除 < ..> 括号内的所有元素,或者列出 >...< 括号之间的所有文本。我对正则表达式很陌生,但我很确定它们是要走的路。
这是我尝试过的代码
Regex reg = new Regex(@"<.*>");
file = reg.Replace(file, "");
只要在一块文本之前只有一个 <...> ,它就可以工作。任何按顺序包含两个或更多这些元素的文件,例如 <...><...>,它会开始删除它找到的任何文本。有人可以告诉我我做错了什么吗?