0

我正在使用 Html Agility Pack 对 Google 搜索结果进行基本的网络抓取。作为 XPath 的新手,我确保我的路径表达式是正确的(在 FirePath 的帮助下)。但是,返回的 HtmlNodeCollection 始终为 NULL。

HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument htmlDoc = web.Load("http://www.google.com/search?num=10&q=Hello+World");

// get search result URLs
var items = htmlDoc.DocumentNode.SelectNodes("//div[@id='ires']/ol[@id='rso']/li/div[@class='vsc']/h3/a/@href");

foreach (HtmlNode node in items)
{
    Console.WriteLine(node.Attributes);
}

我错过了什么吗?任何人都可以请赐教吗?

提前致谢,

4

1 回答 1

0

HAP 只能处理从 url 返回的原始 HTML,它不会运行页面上的任何其他 javascript 或诸如此类的东西。您需要相应地调整您的查询。

在原始 HTML 中,iresdiv 存在,但在rso运行 javascript 之前不会插入,因此您不会得到任何结果。这里还完成了其他转换,您也必须对其进行调整。

这是 HTML 的一个片段:

<div id="ires">
    <ol>
        <li class="g">
            <h3 class="r">
                <a href="...">...</a>

用于此的更合适的 xpath 是:

var xpath = "//li[contains(concat(' ',@class,' '),' g ')]" +
            "/h3[contains(concat(' ',@class,' '),' r ')]" +
            "/a/@href";

li使用类找到所有内容会更容易,g因为它们对应于所有结果。您需要h3使用r该类过滤所有内容,否则您将包含其他结果(例如图像结果)。

于 2012-08-28T18:17:54.157 回答