我正在尝试使用HTMLagilitypack
从网页中提取所有内容。
foreach (HtmlTextNode node in doc.DocumentNode.SelectNodes("//text()"))
{
sb.AppendLine(node.Text);
}
当我尝试使用上面的代码解析 google.com 时,我得到了很多 javascript。我想要的只是提取网页中的内容,例如 inh
或p
标签。就像在此页面上提出问题、答案、评论并删除其他所有内容一样。
我真的是 XPath 的新手,不知道该往哪里走。所以任何帮助将不胜感激。