c# - Html Parser - C# Regex html 标签（div、img、a、h5 等）加上属性

Question

Html Parser - C# Regex html tags content >me im the content< (div, img, a, h5 etc) html 标签以多种不同的方式关闭。

你可能会问为什么要这样做。我继承了原型代码来执行短语替换，例如 Home -> Casa。（西班牙语）。正如您可以想象的那样，我有很多短语（350 和上升），例如“添加新联系人”，它们的长度和字数各不相同。

第一个要求：需要一个正则表达式来提取标签内容。输出必须是：这里是正则表达式匹配的内容这将允许我进一步操作字符串以允许我执行短语替换。

第二个要求：这里是正则表达式要匹配的内容/> 需要一个正则表达式来拉出属性标签内容如：输出必须是：

请不要使用 HTML 敏捷包进行响应。我的定制要求不允许我查看：格式良好的文档。湾。客户端 XSL 转换 c. 确定内容的 XML 数据岛。

string file = @"<html>
        <body>
            <input class='moth'>Add New Organisation  </>
<input class='moth'>Org&#160;role
 </>
         </body>
           </html>";

string searchText = "Add New Organisation";

<([\d\w]*)\b[^>]*>([\d\w\s]*?{0}[\d\w\s]*)

所以任何人都可以帮忙。到目前为止，我一直在使用这个正则表达式 ..

 var myContentMatches = new List<string>
            (Regex.Matches(file, regExpressionContent.ToString(),
            RegexOptions.IgnoreCase
                | RegexOptions.IgnorePatternWhitespace
                | RegexOptions.Multiline)
            .Cast<Match>().Select(pp => pp.ToString()));

我试图不在这里过多地讨论这个问题。需要任何进一步的信息，请询问。一段时间以来，我一直在努力反对速度和正确匹配。

score 0 · Accepted Answer

我正在结束这个问题，使用 HAP 已经解决了我的一部分要求。谢谢大家的建议。

score 0 · Accepted Answer

HTML 不是正则语言，不能用正则表达式解析。我不相信您的问题有一个现实的解决方案，它不利用现有的库来解析 HTML。

这是 StackOverflow 上投票率最高的问题/答案组合之一，我建议您阅读它：RegEx match open tags except XHTML self-contained tags

c# - Html Parser - C# Regex html 标签（div、img、a、h5 等）加上属性

2 回答 2

Related

Reference