问题标签 [html-agility-pack]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3380 问题

0 投票

1 回答

521 浏览

xml - XPath 查询以在其他节点之后获取节点

我正在使用“HtmlAgilityPack”来解析 HTML 内容。我的目标是获得数值。

2010-04-20T13:07:50.197

0 投票

1 回答

522 浏览

c# - HTMLAgilityPack，HTML 重复 ID

嗨：这与这里的这个相似。但需要在服务器级别而不是客户端级别完成。目前我使用 HTMLAgilityPack，有没有我可以检测到重复的 ID？提前致谢。

c#html html-agility-pack

2010-04-22T18:20:31.000

0 投票

1 回答

3110 浏览

iphone - 类似 C/Objective-c/iPhone 的“html 敏捷包”解决方案

我需要一个功能强大的用于 Objective-C/C 的 HTML 解析器和操纵器，比如 HTML Agility Pack。

谁能告诉我一些最佳解决方案？一种解决方案是 libxml2，但它的接缝并不是最好的。

提前致谢！

iphone c objective-c html-agility-pack html-parser

2010-04-26T09:06:34.317

0 投票

2 回答

5252 浏览

c# - 将一个 html 字符串拆分为 N 个部分

有没有人有拆分 html 字符串（来自小型 mce 编辑器）并使用 C# 将其拆分为 N 部分的示例？

我需要在不拆分单词的情况下均匀拆分字符串。

我正在考虑拆分 html 并使用 HtmlAgilityPack 尝试修复损坏的标签。虽然我不确定如何找到分割点，但理想情况下它应该基于文本而不是 html 的purley。

有人对如何解决这个问题有任何想法吗？

更新

根据要求，这里是输入和所需输出的示例。

输入：

输出（分成 3 列时）：

更新 2：

我刚刚玩过 Tidy HTML，它似乎可以很好地修复损坏的标签，所以如果我能找到一种方法来定位拆分品脱，这可能是一个不错的选择？

更新 3

在 .NET C# 中使用类似于此Truncate string on whole words的方法，我现在设法获得了构成每个部分的纯文本单词列表。因此，假设使用 Tidy HTML，我有一个有效的 html 结构，并且给出了这个单词列表，任何人都知道现在拆分它的最佳方法是什么？

更新 4

任何人都可以看到使用正则表达式以下列方式查找带有 HTML 的索引的问题：

给定纯文本字符串“sit amet, consectetur”，用正则表达式“(\s|<(.|\n)+?>)*”替换所有空格，理论上可以找到具有空格和/或任意组合的字符串标签

然后我可以使用 Tidy HTML 来修复损坏的 html 标签吗？

非常感谢

马特

c#regex html-agility-pack htmltidy

2010-05-01T13:41:11.873

0 投票

3 回答

197 浏览

c# - HTML Agility Pack 是否包含非托管代码？如果是这样，我会在我的应用程序中遇到问题吗？

HTML Agility Pack 是否包含非托管代码？如果是这样，在我的应用程序中使用非托管代码时会出现任何问题吗？

c#html-agility-pack

2010-05-10T05:18:42.897

0 投票

2 回答

14743 浏览

c# - 使用 html 敏捷包获取类中的链接

alt 类有一堆 tr。我想获取所有链接（或最后一个），但我无法弄清楚如何使用 html 敏捷包。

我尝试了 a 的变体，但我只得到所有链接或没有。由于我正在编写 n.SelectNodes

c#html-agility-pack

user34537

2010-05-18T13:55:44.380

0 投票

1 回答

2210 浏览

.net - 带有 html 敏捷包的直接后代

我有一个特定的 html 节点，我想获得第二个，也就是最后一个直系后代。所以写完后.Descendants("div")我写了ls.Last()。我实际上得到了第二个后代的最后一个 div。不是我所期待的。我如何只获得直系后代？或者我如何获得具有特定类名的后代？因为“div.postBody”将是一个合适的选择。

.net html-agility-pack

user34537

2010-05-18T16:24:43.470

0 投票

1 回答

18868 浏览

c# - 使用 HtmlAgilityPack 仅选择特定 DIV 中的项目

我正在尝试使用 HtmlAgilityPack 从页面中提取所有链接，这些链接包含在声明为 div 的页面中。<div class='content'>但是，当我使用下面的代码时，我只需获取整个页面上的所有链接。这对我来说真的没有意义，因为我从之前选择的子节点调用 SelectNodes（在调试器中查看时仅显示来自该特定 div 的 HTML）。所以，就像每次我调用 SelectNodes 时它都会回到根节点。我使用的代码如下：

这是预期的行为吗？如果是这样，我如何让它做我所期望的？

c#html-agility-pack

2010-05-20T15:38:42.190

0 投票

3 回答

1962 浏览

c# - 我可以在我的应用程序中使用 notepad++ exe 吗？

我在 html 敏捷包的帮助下解析 html 文件以从 html 文件中提取表数据。但是有一些 html 文件没有可选的结束标签，或者没有可选的起始标签。因此 html 敏捷包无法正确解析该 html 页面。如果我在记事本 ++ 中打开该 html 文件的内容然后使用选项TestFX-->TestFX HTML Tidy-->TiDy clean document并使内容像这样整洁。现在这个文件如果我用 html 敏捷包解析，那么它会正确解析它。

使用 notepad++ 整理 html 页面是最好的选择。

所以我不知道，但用户不能这样做，首先他/她用记事本++整理页面然后继续。那我该怎么办？

编辑我使用了 html tidy pack，但在某些情况下，有一些文件没有被解析，但如果我在记事本++中使这个页面整洁，那么它就会被解析。

c#winforms notepad++html-agility-pack htmltidy

2010-05-21T12:09:58.000

0 投票

2 回答

155 浏览

.net - .net 中是否有用于解析 html 文件的内置支持或本机库？

为什么使用 html 敏捷包来解析 html 文件中的信息？.net 中是否没有内置或本机库来解析 html 文件中的信息？如果有，那么内置支持有什么问题？使用 html 敏捷包与从 html 文件解析信息的内置支持相比有什么好处？

.net winforms html-parsing html-agility-pack

2010-05-27T10:13:54.363

1 2 3 4 5 6 7 8 9 10

问题标签 [html-agility-pack]

Reference