我正在使用 HTML-Agility-Pack 从Mcafee Threat Intelligence 实验室抓取有关域和 IP 的数据,但无论我向 DocumentNode.SelectNodes 提供什么 XPATH,它都找不到我正在寻找的节点(威胁级别的图像)。据我所知,它可以找到其他节点和图像,但不是这个特定的。特定 img 在此页面上的 id 为“ctl00_mainContent_imgRisk”:www.mcafee.com/threat-intelligence/domain/default.aspx?domain=facebook.com(以 facebook.com 为例)。这是我正在使用的代码:
string XPATH = "foo"
string url = "http://www.mcafee.com/threat-intelligence/ip/default.aspx?";
if (y == true)
url = url + "ip=" + ipaddress;
if (y == false)
url = url + "domain=" + domainname;
HttpWebRequest mcafeeReq = (HttpWebRequest)WebRequest.Create(url);
mcafeeReq.UserAgent = @"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5";
HtmlDocument mcafeeWeb = new HtmlDocument();
HttpWebResponse resp = (HttpWebResponse)mcafeeReq.GetResponse();
var resultStream = resp.GetResponseStream();
mcafeeWeb.Load(resultStream);
HtmlNodeCollection nodes = mcafeeWeb.DocumentNode.SelectNodes(XPATH);
try
{
foreach (HtmlNode node in nodes)
{
try
{
HtmlAttribute att = node.Attributes["title"];
Console.WriteLine(att.Value);
}
catch
{
Console.WriteLine("No Value Found");
}
}
}
catch
{
Console.WriteLine("No Nodes Found.");
}
我已经为 XPATH 尝试了许多不同的值来找到 img,包括
"//img[@id='ctl00_mainContent_imgRisk']",不返回节点
"//img",返回一些img,但不是正确的
img 的完整 XPATH "/html/body[@id='ctl00_MasterBody']/div[@class='wrapper']/div[@class='page']/div[@class='container pageContainer'] /div[@class='pageMiddle']/div[@class='pageTopGradient']/div[@class='pageBottomGradient']/div[@class='canvas pageContent pageBannerBolster']/div[@class='row pageBanner pageBannerTeal']/div[@class='area primaryContent']/div[@class='bannerContent bannerContentImage']/img[@id='ctl00_mainContent_imgRisk']",不返回节点。
有谁知道我做错了什么?