C#:解析超链接及其描述的好正则表达式是什么?
请考虑不区分大小写、空格和在 HREF 标记周围使用单引号(而不是双引号)。
还请考虑获取在标签中包含其他标签的超链接,<a>
例如<b>
和<i>
。
只要没有嵌套标签(并且没有换行符),以下变体就可以很好地工作:
<a\s+href=(?:"([^"]+)"|'([^']+)').*?>(.*?)</a>
一旦嵌套标签开始发挥作用,正则表达式就不适合解析。但是,您仍然可以通过应用现代解释器的更高级功能(取决于您的正则表达式机器)来使用它们。例如,.NET 正则表达式使用堆栈;我找到了这个:
(?:<a.*?href=[""'](?<url>.*?)[""'].*?>)(?<name>(?><a[^<]*>(?<DEPTH>)|</a>(?<-DEPTH>)|.)+)(?(DEPTH)(?!))(?:</a>)
来源:http ://weblogs.asp.net/scottcate/archive/2004/12/13/281955.aspx
请参阅 StackOverflow 中的此示例:用于解析网页链接的正则表达式?
使用HTML 敏捷包,您可以解析 html,并使用 HTML 的语义提取详细信息,而不是使用损坏的正则表达式。
我有一个处理大多数情况的正则表达式,尽管我相信它确实匹配多行注释中的 HTML。
它是使用 .NET 语法编写的,但应该易于翻译。
既然我已经让它工作了,就要把这个片段扔出去……这是之前建议的一个不那么贪婪的版本。如果输入有多个超链接,原始文件将不起作用。下面的代码将允许您遍历所有超链接:
static Regex rHref = new Regex(@"<a.*?href=[""'](?<url>[^""^']+[.]*?)[""'].*?>(?<keywords>[^<]+[.]*?)</a>", RegexOptions.IgnoreCase | RegexOptions.Compiled);
public void ParseHyperlinks(string html)
{
MatchCollection mcHref = rHref.Matches(html);
foreach (Match m in mcHref)
AddKeywordLink(m.Groups["keywords"].Value, m.Groups["url"].Value);
}
这是一个匹配平衡标签的正则表达式。
(?:""'[""'].*?>)(?(?>(?)|(?<-DEPTH>)|.)+)(?(DEPTH)(?!))(?: )