Html Parser - C# Regex html tags content >me im the content< (div, img, a, h5 etc) html 标签以多种不同的方式关闭。
你可能会问为什么要这样做。我继承了原型代码来执行短语替换,例如 Home -> Casa。(西班牙语)。正如您可以想象的那样,我有很多短语(350 和上升),例如“添加新联系人”,它们的长度和字数各不相同。
第一个要求:需要一个正则表达式来提取标签内容。输出必须是:这里是正则表达式匹配的内容 这将允许我进一步操作字符串以允许我执行短语替换。
第二个要求:这里是正则表达式要匹配的内容/> 需要一个正则表达式来拉出属性标签内容如: 输出必须是:
请不要使用 HTML 敏捷包进行响应。我的定制要求不允许我查看: 格式良好的文档。湾。客户端 XSL 转换 c. 确定内容的 XML 数据岛。
string file = @"<html>
<body>
<input class='moth'>Add New Organisation </>
<input class='moth'>Org role
</>
</body>
</html>";
string searchText = "Add New Organisation";
<([\d\w]*)\b[^>]*>([\d\w\s]*?{0}[\d\w\s]*)
所以任何人都可以帮忙。到目前为止,我一直在使用这个正则表达式 ..
var myContentMatches = new List<string>
(Regex.Matches(file, regExpressionContent.ToString(),
RegexOptions.IgnoreCase
| RegexOptions.IgnorePatternWhitespace
| RegexOptions.Multiline)
.Cast<Match>().Select(pp => pp.ToString()));
我试图不在这里过多地讨论这个问题。需要任何进一步的信息,请询问。一段时间以来,我一直在努力反对速度和正确匹配。