5

我是 c# 新手,我真的需要帮助解决以下问题。我希望从具有特定模式的网页中提取照片网址。例如,我希望提取所有具有以下模式 name_412s.jpg 的图像。我使用以下代码从 html 中提取图像,但我不知道如何适应它。

public void Images()
    {
        WebClient x = new WebClient();
        string source = x.DownloadString(@"http://www.google.com");

        HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
        document.Load(source);

        foreach(HtmlNode link in document.DocumentElement.SelectNodes("//img")
        {
          images[] = link["src"];
       }
}

我还需要将结果写入 xml 文件。你也可以帮我吗?

谢谢 !

4

1 回答 1

3

要限制查询结果,您需要向 XPath 添加条件。例如,//img[contains(@src, 'name_412s.jpg')]将结果限制为仅img具有src包含该文件名的属性的元素。

至于将结果写入 XML,您需要创建一个新的 XML 文档,然后将匹配的元素复制到其中。由于您无法将 HtmlAgilityPack 节点直接导入 XmlDocument,因此您必须手动复制所有属性。例如:

using System.Net;
using System.Xml;

// ...

public void Images()
{
    WebClient x = new WebClient();
    string source = x.DownloadString(@"http://www.google.com");
    HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
    document.Load(source);
    XmlDocument output = new XmlDocument();
    XmlElement imgElements = output.CreateElement("ImgElements");
    output.AppendChild(imgElements);
    foreach(HtmlNode link in document.DocumentElement.SelectNodes("//img[contains(@src, '_412s.jpg')]")
    {
        XmlElement img = output.CreateElement(link.Name);
        foreach(HtmlAttribute a in link.Attributes)
        {
            img.SetAttribute(a.Name, a.Value)
        }
        imgElements.AppendChild(img);
    }
    output.Save(@"C:\test.xml");
}
于 2012-11-17T23:42:20.183 回答