问题标签 [html-agility-pack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2251 浏览

c# - HtmlAgilityPack 给出格式错误的 html 的问题

我想从 html 文档中提取有意义的文本,并且我正在使用 html-agility-pack 来做同样的事情。这是我的代码:

转换HTML:

转换成:

现在在某些情况下,当 html 页面格式错误时(例如以下页面 - http://rareseeds.com/cart/products/Purple_of_Romagna_Artichoke-646-72.html有一个格式错误的元标记,例如<meta content="text/html; charset=uft-8" http-equiv="Content-Type">)[注意“uft” utf] 我的代码在我尝试加载 html 文档时正在呕吐。

有人可以建议我如何克服这些格式错误的 html 页面并仍然从 html 文档中提取相关文本吗?

谢谢,卡皮尔

0 投票
2 回答
2527 浏览

c# - 使用 HTMLAgility Pack 提取链接

考虑这段最简单的代码:

这实际上根本没有做任何事情,并且是从诸如此类的各种其他 StackOverflow 问题中复制/启发。编译时出现运行时错误,提示“对象引用未设置为对象的实例”。突出显示 foreach 行。

我不明白,为什么环境对这段不起眼、无辜和无用的代码变得烦躁。

我也想知道,HTMLAgilityPack 是否接受 HTML 类作为节点?

0 投票
1 回答
737 浏览

c# - 使用 HTMLAGILITY 包提取具有特定属性的表行

考虑这段代码:

我想使用 HTMLAgility 包编写一段代码,它将提取第一行中的链接。

当我尝试在 try 块中插入foreach(var link in links)语句/循环时,会引发运行时错误。

0 投票
1 回答
3954 浏览

c# - XPATH 查询、HtmlAgilityPack 和提取文本

我一直在尝试从名为 "tim_new" 的类中提取链接。我也得到了解决方案。

此处提供了解决方案、代码段和必要信息

所说的 XPATH 查询是"//a[@class='tim_new'],我的问题是,这个查询如何区分片段的第一行(在上面的链接中给出和片段的第二行)。

更具体地说,这个 XPATH 查询的字面翻译(英文)是什么。


此外,我想写几行代码来提取所写的文本NSE:

希望有助于形成必要的选择查询。

我的代码写成:

但这看起来不对。将不胜感激一些帮助。

0 投票
1 回答
776 浏览

c# - Html 敏捷包使用

如何使用 Html Agility Pack 选择所有 html 标签并将其放入列表中,以便我可以查看网页中的所有可用标签。

谢谢,

吉普

0 投票
1 回答
341 浏览

c# - 如何在 HTML AGILity 包中的节点内获取 innerText..?

我只想要一个“内容”,即存在于<a>和之间<strong>

0 投票
1 回答
138 浏览

c# - 这个 XPATH 查询如何区分?

我有点重复这个问题,因为主要是由于我自己的无知,我无法完全理解内幕。

鉴于此 HTML 片段

这个 XPATH 如何//a[@class='tim_new']区分第 1 行和第 2 行。

0 投票
4 回答
6837 浏览

c# - 无法将类型“字符串”转换为“HtmlAgilityPack.HtmlDocument”?

如何将下载的字符串转换为有效的 HtmlDocument,以便使用 HTMLAgilityPack 对其进行解析?

0 投票
1 回答
340 浏览

c# - 如何使用 HTMLAgilityPack 从 Divs 中提取内容?

我是第一次学习如何使用这个库,希望得到一些帮助。

考虑一下我的 HTMLDocument 中有这个:

如何仅提取 Casablanca 文本,而不是 span div?

另外,我认为 HtmlNode.InnerText 是 Div 内的文本是否正确?

0 投票
5 回答
3633 浏览

c# - 如何使用 HTML Agility Pack 获取标签中的所有内容?

所以我正在编写一个应用程序来做一点屏幕抓取。我正在使用HTML Agility Pack将整个 HTML 页面加载到HtmlDocoument被调用的实例中doc。现在我想解析那个文档,寻找这个:

所以我只需要在第二行中获取数据。我怎样才能做到这一点?我应该使用正则表达式还是其他东西?

更新:这是我加载我的方式doc