问题标签 [html-agility-pack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - HtmlAgilityPack 给出格式错误的 html 的问题
我想从 html 文档中提取有意义的文本,并且我正在使用 html-agility-pack 来做同样的事情。这是我的代码:
转换HTML:
转换成:
现在在某些情况下,当 html 页面格式错误时(例如以下页面 - http://rareseeds.com/cart/products/Purple_of_Romagna_Artichoke-646-72.html有一个格式错误的元标记,例如<meta content="text/html; charset=uft-8" http-equiv="Content-Type">
)[注意“uft” utf] 我的代码在我尝试加载 html 文档时正在呕吐。
有人可以建议我如何克服这些格式错误的 html 页面并仍然从 html 文档中提取相关文本吗?
谢谢,卡皮尔
c# - 使用 HTMLAgility Pack 提取链接
考虑这段最简单的代码:
这实际上根本没有做任何事情,并且是从诸如此类的各种其他 StackOverflow 问题中复制/启发的。编译时出现运行时错误,提示“对象引用未设置为对象的实例”。突出显示 foreach 行。
我不明白,为什么环境对这段不起眼、无辜和无用的代码变得烦躁。
我也想知道,HTMLAgilityPack 是否接受 HTML 类作为节点?
c# - 使用 HTMLAGILITY 包提取具有特定属性的表行
考虑这段代码:
我想使用 HTMLAgility 包编写一段代码,它将提取第一行中的链接。
当我尝试在 try 块中插入foreach(var link in links)
语句/循环时,会引发运行时错误。
c# - XPATH 查询、HtmlAgilityPack 和提取文本
我一直在尝试从名为 "tim_new" 的类中提取链接。我也得到了解决方案。
此处提供了解决方案、代码段和必要信息
所说的 XPATH 查询是"//a[@class='tim_new']
,我的问题是,这个查询如何区分片段的第一行(在上面的链接中给出和片段的第二行)。
更具体地说,这个 XPATH 查询的字面翻译(英文)是什么。
此外,我想写几行代码来提取所写的文本NSE:
希望有助于形成必要的选择查询。
我的代码写成:
但这看起来不对。将不胜感激一些帮助。
c# - Html 敏捷包使用
如何使用 Html Agility Pack 选择所有 html 标签并将其放入列表中,以便我可以查看网页中的所有可用标签。
谢谢,
吉普
c# - 如何在 HTML AGILity 包中的节点内获取 innerText..?
我只想要一个“内容”,即存在于<a>
和之间<strong>
c# - 无法将类型“字符串”转换为“HtmlAgilityPack.HtmlDocument”?
如何将下载的字符串转换为有效的 HtmlDocument,以便使用 HTMLAgilityPack 对其进行解析?
c# - 如何使用 HTMLAgilityPack 从 Divs 中提取内容?
我是第一次学习如何使用这个库,希望得到一些帮助。
考虑一下我的 HTMLDocument 中有这个:
如何仅提取 Casablanca 文本,而不是 span div?
另外,我认为 HtmlNode.InnerText 是 Div 内的文本是否正确?
c# - 如何使用 HTML Agility Pack 获取标签中的所有内容?
所以我正在编写一个应用程序来做一点屏幕抓取。我正在使用HTML Agility Pack将整个 HTML 页面加载到HtmlDocoument
被调用的实例中doc
。现在我想解析那个文档,寻找这个:
所以我只需要在第二行中获取数据。我怎样才能做到这一点?我应该使用正则表达式还是其他东西?
更新:这是我加载我的方式doc