-4

Html Parser - C# Regex html tags content >me im the content< (div, img, a, h5 etc) html 标签以多种不同的方式关闭。

你可能会问为什么要这样做。我继承了原型代码来执行短语替换,例如 Home -> Casa。(西班牙语)。正如您可以想象的那样,我有很多短语(350 和上升),例如“添加新联系人”,它们的长度和字数各不相同。

第一个要求:需要一个正则表达式来提取标签内容。输出必须是:这里是正则表达式匹配的内容 这将允许我进一步操作字符串以允许我执行短语替换。

第二个要求:这里是正则表达式要匹配的内容/> 需要一个正则表达式来拉出属性标签内容如: 输出必须是:

请不要使用 HTML 敏捷包进行响应。我的定制要求不允许我查看: 格式良好的文档。湾。客户端 XSL 转换 c. 确定内容的 XML 数据岛。

string file = @"<html>
        <body>
            <input class='moth'>Add New Organisation  </>
<input class='moth'>Org&#160;role
 </>
         </body>
           </html>";

string searchText = "Add New Organisation";

<([\d\w]*)\b[^>]*>([\d\w\s]*?{0}[\d\w\s]*)

所以任何人都可以帮忙。到目前为止,我一直在使用这个正则表达式 ..

 var myContentMatches = new List<string>
            (Regex.Matches(file, regExpressionContent.ToString(),
            RegexOptions.IgnoreCase
                | RegexOptions.IgnorePatternWhitespace
                | RegexOptions.Multiline)
            .Cast<Match>().Select(pp => pp.ToString()));  

我试图不在这里过多地讨论这个问题。需要任何进一步的信息,请询问。一段时间以来,我一直在努力反对速度和正确匹配。

4

2 回答 2

0

我正在结束这个问题,使用 HAP 已经解决了我的一部分要求。谢谢大家的建议。

于 2012-08-10T09:38:15.020 回答
0

HTML 不是正则语言,不能用正则表达式解析。我不相信您的问题有一个现实的解决方案,它不利用现有的库来解析 HTML。

这是 StackOverflow 上投票率最高的问题/答案组合之一,我建议您阅读它:RegEx match open tags except XHTML self-contained tags

于 2012-08-08T18:20:33.853 回答