3

我一直在搜索一个简单的网络爬虫,我需要在我的 StreamBuilder 或字符串中搜索一个元素。例如,我需要获取 id 为“bodyDiv”的 div 中的所有内容。哪个工具可以帮我解决这个问题?

private static string GetPage(string url)

        {

            HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
            request.UserAgent = "Simple crawler";    
            WebResponse response = request.GetResponse();

            Stream stream = response.GetResponseStream();

            StreamReader reader = new StreamReader(stream);

            string htmlText = reader.ReadToEnd();
            return htmlText;

        }
4

1 回答 1

5

我会使用HtmlAgilityPack

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(htmlText);

var div = doc.DocumentNode.SelectSingleNode("//div[@id='bodyDiv']");
if(div!=null)
{
    var yourtext = div.InnerText;
}
于 2012-11-30T13:01:01.450 回答