问题标签 [html-agility-pack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2250 浏览

xss - 您如何使用 html 敏捷包进行 htmlencode?

有人做过吗?基本上,我想通过保留 h1、h2、em 等基本标签来使用 html;清除 img 和 a 标签中的所有非 http 地址;和 HTMLEncode 每隔一个标签。

我被困在 HTML 编码部分。我知道要删除一个节点,您执行“node.ParentNode.RemoveChild(node);” 其中 node 是 HtmlNode 类的对象。我不想删除节点,而是想对它进行 HTMLEncode。

0 投票
1 回答
1952 浏览

ant - 如何从 TeamCity 中提取工件?

我想从 teamcity 中提取工件。

我一直在尝试使用 c# 和 HtmlAgilityPack 来访问该网站并找到最新版本及其工件。我目前卡在登录状态,我想我只需要发送会话 Cookie 即可。

我是否朝着正确的方向前进,有其他人尝试过吗?

我意识到使用构建脚本推出文件很容易,但我想尽量减少对 Ant、NAnt 文件的更改,因为我正在考虑将其扩展到 100 个应用程序。

编辑:这个问题看起来很有前景Getting HTML from a page behind a login

编辑:现在可以了,我只需要编写一些代码来解析它

0 投票
2 回答
8679 浏览

html - HtmlAgilityPack 删除选项结束标签

我正在使用 HtmlAgilityPack。我使用以下字符串创建了一个 HtmlDocument 和 LoadHtml:

这会做一些意想不到的事情。首先,它给出了两个解析器错误,EndTagNotRequired。其次,选择节点有 4 个子节点 - 两个用于选项标签,另外两个用于选项标签的内部文本。最后,OuterHtml 是这样的:

所以基本上我决定放弃选项的结束标签。让我们暂时搁置这样做是否适当和可取。我正在使用 HtmlAgilityPack 来测试 HTML 生成代码,所以我不希望它为我做出任何决定或给出任何错误,除非 HTML 确实格式错误。有什么方法可以让它表现出我想要的样子吗?我尝试为 HtmlDocument 设置一些选项,特别是:

这是行不通的。如果 HtmlAgilityPack 不能做我想要的,你能推荐一些可以的东西吗?

0 投票
7 回答
23541 浏览

c# - 使用 html Agility Pack 选择属性值

我正在尝试使用 html 敏捷包和此 xpath 从 html 文档中检索特定图像:

据我所见,它找到了 src-attribute,但它返回了 img-tag。这是为什么?

我希望设置 InnerHtml/InnerText 或其他内容,但两者都是空字符串。OuterHtml 设置为完整的 img-tag。

是否有任何有关 Html Agility Pack 的文档?

0 投票
2 回答
1077 浏览

c# - 在 HtmlAgility HtmlDocument 中查找匹配原始 Html 的节点

我目前有一个程序,可以根据查找具有匹配 id 的标签来查找和编辑 HTML 文件。

我想扩展它以找到一个匹配 InnerHtml 的标签(忽略大小写和空格)

使用 Html Agility 执行此操作的好方法是什么?我想使用 Html Agility 来完成它,因为程序的其余部分正在使用它。

谢谢。

0 投票
5 回答
109808 浏览

c# - HTML 敏捷包 - 解析表

我想使用 HTML 敏捷包来解析来自复杂网页的表格,但我不知何故迷失在对象模型中。

我查看了链接示例,但没有以这种方式找到任何表格数据。我可以使用 XPath 来获取表格吗?在加载有关如何获取表格的数据后,我基本上迷失了。我以前在 Perl 中做过这个,有点笨拙,但是很有效。( HTML::TableParser)。

如果有人能阐明解析的正确对象顺序,我也很高兴。

0 投票
1 回答
1444 浏览

.net - 从 HTML 标签汤生成 .NET XmlDocument 的库

我正在寻找一个 .NET 库,它可以从无效的 HTML 代码生成干净的 Xml 树,最好是 System.Xml.XmlDocument。IE 在遇到这种情况时应该尽最大努力猜测、修复和替换浏览器,并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。:)

我意识到这有很多(太多了?)要问,我会很感激任何有用的线索。对于 Java,似乎有相当多的实现,但我宁愿不生成自己的绑定。到目前为止,对于 .NET,我发现http://www.majestic12.co.uk/projects/html_parser.phphttp://users.rcn.com/creitzel/tidy.html#dotnethttp://sourceforge .net/projects/tidyfornet

我还没有构建或测试任何这些,但是从(稀疏的)文档和罕见的更新来看,它们似乎没有我想要的东西。那么你有什么建议,无论是在这些选择中,还是从你过去的经验中。

0 投票
4 回答
7412 浏览

html-agility-pack - 图像标签未使用 HTMLAgilityPack 关闭

使用 HTMLAgilityPack 写出一个新的图像节点,它似乎删除了图像的结束标记,例如应该是但是当你检查外部 html 时,有 .

这会破坏 xhtml。

0 投票
2 回答
125 浏览

c# - 转换大量网页的最佳方法?

以编程方式将大量非常相似的网页转换为更新的基于 css 的布局的最佳方法是什么?

我正在将旧网站的所有内容更改为基于 css 的新布局。许多页面非常相似,我希望能够自动化该过程。

我目前正在考虑做的是使用 HtmlAgilityPack 读取页面,并为每组将创建输出文本的相似页面创建一个方法。

您认为最好的方法是什么?这些页面的不同之处主要在于图像使用了哪个 .jpg 文件,或者该特定页面上有多少组标题图像文本

编辑:我不能使用 .html 以外的任何其他文件类型,因为这是我被授权做的所有事情。有什么建议么?

EDIT2:理想情况下,我也可以使它足够通用,只需切换几个移动部件,我就可以将它用于许多不同的 html 文件组。

0 投票
7 回答
379958 浏览

c# - 如何使用 HTML 敏捷包

如何使用HTML 敏捷包

我的 XHTML 文档不完全有效。这就是我想使用它的原因。我如何在我的项目中使用它?我的项目在 C# 中。