26

目前我使用.NetWebBrowser.Document.Images()来做到这一点。它需要Webrowser加载文档。它很乱,占用资源。

根据这个问题, XPath 在这方面比正则表达式更好。

任何人都知道如何在 C# 中做到这一点?

4

4 回答 4

56

如果您的输入字符串是有效的 XHTML,您可以将其视为 xml,将其加载到 xmldocument 中,然后执行 XPath 魔术 :) 但并非总是如此。

否则你可以试试这个函数,它会从 HtmlSource 返回所有图片链接:

public List<Uri> FetchLinksFromSource(string htmlSource)
{
    List<Uri> links = new List<Uri>();
    string regexImgSrc = @"<img[^>]*?src\s*=\s*[""']?([^'"" >]+?)[ '""][^>]*?>";
    MatchCollection matchesImgSrc = Regex.Matches(htmlSource, regexImgSrc, RegexOptions.IgnoreCase | RegexOptions.Singleline);
    foreach (Match m in matchesImgSrc)
    {
        string href = m.Groups[1].Value;
        links.Add(new Uri(href));
    }
    return links;
}

你可以像这样使用它:

HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.example.com");
request.Credentials = System.Net.CredentialCache.DefaultCredentials;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
if (response.StatusCode == HttpStatusCode.OK)
{
    using(StreamReader sr = new StreamReader(response.GetResponseStream()))
    {
        List<Uri> links = FetchLinksFromSource(sr.ReadToEnd());
    }
}
于 2008-09-26T11:32:43.197 回答
11

任何 HTML 解析的大问题是“格式良好”的部分。您已经看到了那里的废话 HTML - 其中有多少是格式正确的?我需要做类似的事情 - 解析文档中的所有链接(在我的情况下)用重写的链接更新它们。我在 CodePlex 上找到了Html Agility Pack 。它摇摆不定(并处理格式错误的 HTML)。

这是一个用于迭代文档中链接的片段:

HtmlDocument doc = new HtmlDocument();
doc.Load(@"C:\Sample.HTM");
HtmlNodeCollection linkNodes = doc.DocumentNode.SelectNodes("//a/@href");

Content match = null;

// Run only if there are links in the document.
if (linkNodes != null)
{
    foreach (HtmlNode linkNode in linkNodes)
    {
        HtmlAttribute attrib = linkNode.Attributes["href"];
        // Do whatever else you need here
    }
}

原始博客文章

于 2008-09-26T20:19:37.240 回答
4

如果您只需要图像,我只会使用正则表达式。这样的事情应该可以解决问题:

Regex rg = new Regex(@"<img.*?src=""(.*?)""", RegexOptions.IgnoreCase);
于 2008-09-26T11:27:07.717 回答
-3

如果它是有效的 xhtml,你可以这样做:

XmlDocument doc = new XmlDocument();
doc.LoadXml(html);
XmlNodeList results = doc.SelectNodes("//img/@src");
于 2008-09-26T11:26:43.070 回答