可能重复:
使用 C# 正则表达式删除 HTML 标记
我必须删除标签并将所有其他信息保存在 XML 文件中。使用正则表达式时,我不知何故不知所措。我只能想出逐行读取文件,然后尝试“定位”所有标签并将它们替换为“” - 空字符串。但是,它没有按预期工作:
line = Regex.Replace(line, "<.*>", "");
我能否解释一下为什么这不能按预期工作(我认为它应该只找到 <> 内所有可能的符号组合。另外,你能否推荐一个好的正则表达式介绍。我在常规上读了很多-expressions.info 但我发现它不完整且令人困惑。