1

我正在尝试从此链接获取 html 页面,并使用 HAP 类库将内容存储到 C# 中的特定文件中。我对 HtmlWeb 类的 Get 方法很感兴趣。它编译并运行得非常好,但从未创建过“file.txt”。这是课程及其客户。有人可以帮忙吗:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using HtmlAgilityPack;

namespace WebCrawler
{
    class Crawler
    {
        public Crawler() { }

        public Crawler(string Url)
        {
            this.Url = Url;
            HtmlWeb page = new HtmlWeb();
            Console.WriteLine(Url);
            HtmlDocument doc = page.Load(Url);
            page.Get(Url, "file.txt");
        }

        public string Url
        {
            get;
            set;
        }
    }
}


using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using HtmlAgilityPack;

namespace WebCrawler
{
    class Program
    {
        static void Main(string[] args)
        {
            Crawler crawler = new Crawler("https://code.google.com/p/abot/");
        }
    }
}


    using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using HtmlAgilityPack;

namespace WebCrawler
{
    class Program
    {
        static void Main(string[] args)
        {
            Crawler crawler = new Crawler("https://code.google.com/p/abot/");
        }
    }
}

谢谢

4

2 回答 2

2

为什么不做这样的事情

System.IO.File.WriteAllText(@"c:\file.txt", doc.DocumentNode.OuterHtml);
于 2013-06-19T07:49:36.913 回答
1

您必须为 HtmlDocument 类型的对象调用 Save 方法。这是加载谷歌网站的索引页面并将其保存到 out.html 文件的示例。

const string url = "http://google.com";

HtmlWeb page = new HtmlWeb();
HtmlDocument document = page.Load(url);
page.Get(url, "/");
document.Save("out.html");
于 2013-06-19T07:50:10.593 回答