到目前为止,我有这个:
<a href="(http://www.imdb.com/title/tt\d{7}/)".*?>.*?</a>
C#
ArrayList imdbUrls = matchAll(@"<a href=""(http://www.imdb.com/title/tt\d{7}/)"".*?>.*?</a>", html);
private ArrayList matchAll(string regex, string html, int i = 0)
{
ArrayList list = new ArrayList();
foreach (Match m in new Regex(regex, RegexOptions.Multiline).Matches(html))
list.Add(m.Groups[i].Value.Trim());
return list;
}
我正在尝试从 HTML 页面中提取 imdb 链接这个正则表达式有什么问题?
这样做的主要思想是在谷歌中搜索一部电影,然后在结果中寻找指向 imdb 的链接