问题标签 [html-agility-pack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - XPath 查询以在其他节点之后获取节点
我正在使用“HtmlAgilityPack”来解析 HTML 内容。我的目标是获得数值。
c# - HTMLAgilityPack,HTML 重复 ID
嗨:这与这里的这个相似。但需要在服务器级别而不是客户端级别完成。目前我使用 HTMLAgilityPack,有没有我可以检测到重复的 ID?提前致谢。
iphone - 类似 C/Objective-c/iPhone 的“html 敏捷包”解决方案
我需要一个功能强大的用于 Objective-C/C 的 HTML 解析器和操纵器,比如 HTML Agility Pack。
谁能告诉我一些最佳解决方案?一种解决方案是 libxml2,但它的接缝并不是最好的。
提前致谢!
c# - 将一个 html 字符串拆分为 N 个部分
有没有人有拆分 html 字符串(来自小型 mce 编辑器)并使用 C# 将其拆分为 N 部分的示例?
我需要在不拆分单词的情况下均匀拆分字符串。
我正在考虑拆分 html 并使用 HtmlAgilityPack 尝试修复损坏的标签。虽然我不确定如何找到分割点,但理想情况下它应该基于文本而不是 html 的purley。
有人对如何解决这个问题有任何想法吗?
更新
根据要求,这里是输入和所需输出的示例。
输入:
输出(分成 3 列时):
更新 2:
我刚刚玩过 Tidy HTML,它似乎可以很好地修复损坏的标签,所以如果我能找到一种方法来定位拆分品脱,这可能是一个不错的选择?
更新 3
在 .NET C# 中使用类似于此Truncate string on whole words的方法,我现在设法获得了构成每个部分的纯文本单词列表。因此,假设使用 Tidy HTML,我有一个有效的 html 结构,并且给出了这个单词列表,任何人都知道现在拆分它的最佳方法是什么?
更新 4
任何人都可以看到使用正则表达式以下列方式查找带有 HTML 的索引的问题:
给定纯文本字符串“sit amet, consectetur”,用正则表达式“(\s|<(.|\n)+?>)*”替换所有空格,理论上可以找到具有空格和/或任意组合的字符串标签
然后我可以使用 Tidy HTML 来修复损坏的 html 标签吗?
非常感谢
马特
c# - HTML Agility Pack 是否包含非托管代码?如果是这样,我会在我的应用程序中遇到问题吗?
HTML Agility Pack 是否包含非托管代码?如果是这样,在我的应用程序中使用非托管代码时会出现任何问题吗?
c# - 使用 html 敏捷包获取类中的链接
alt 类有一堆 tr。我想获取所有链接(或最后一个),但我无法弄清楚如何使用 html 敏捷包。
我尝试了 a 的变体,但我只得到所有链接或没有。由于我正在编写 n.SelectNodes
.net - 带有 html 敏捷包的直接后代
我有一个特定的 html 节点,我想获得第二个,也就是最后一个直系后代。所以写完后.Descendants("div")
我写了ls.Last()
。我实际上得到了第二个后代的最后一个 div。不是我所期待的。我如何只获得直系后代?或者我如何获得具有特定类名的后代?因为“div.postBody”将是一个合适的选择。
c# - 使用 HtmlAgilityPack 仅选择特定 DIV 中的项目
我正在尝试使用 HtmlAgilityPack 从页面中提取所有链接,这些链接包含在声明为 div 的页面中。<div class='content'>
但是,当我使用下面的代码时,我只需获取整个页面上的所有链接。这对我来说真的没有意义,因为我从之前选择的子节点调用 SelectNodes(在调试器中查看时仅显示来自该特定 div 的 HTML)。所以,就像每次我调用 SelectNodes 时它都会回到根节点。我使用的代码如下:
这是预期的行为吗?如果是这样,我如何让它做我所期望的?
c# - 我可以在我的应用程序中使用 notepad++ exe 吗?
我在 html 敏捷包的帮助下解析 html 文件以从 html 文件中提取表数据。但是有一些 html 文件没有可选的结束标签,或者没有可选的起始标签。因此 html 敏捷包无法正确解析该 html 页面。如果我在记事本 ++ 中打开该 html 文件的内容然后使用选项TestFX-->TestFX HTML Tidy-->TiDy clean document
并使内容像这样整洁。现在这个文件如果我用 html 敏捷包解析,那么它会正确解析它。
使用 notepad++ 整理 html 页面是最好的选择。
所以我不知道,但用户不能这样做,首先他/她用记事本++整理页面然后继续。那我该怎么办?
编辑我使用了 html tidy pack,但在某些情况下,有一些文件没有被解析,但如果我在记事本++中使这个页面整洁,那么它就会被解析。
.net - .net 中是否有用于解析 html 文件的内置支持或本机库?
为什么使用 html 敏捷包来解析 html 文件中的信息?.net 中是否没有内置或本机库来解析 html 文件中的信息?如果有,那么内置支持有什么问题?使用 html 敏捷包与从 html 文件解析信息的内置支持相比有什么好处?