问题标签 [html-agility-pack]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3380 问题

0 投票

1 回答

4052 浏览

c# - 我应该如何使用 HTMLAgilityPack AppendNode？

在星期五的这个阶段真的很头疼！我正在尝试使用 InsertAfter() 将 HtmlNode 添加到另一个。当我将其 rpint 到控制台时，我可以看到带有面包屑 ID 的 refChild 节点，但不断收到以下错误：

我的代码是：

如前所述，我已将 HtmlWrapper 和 HtmlWrapper.SelectSingleNode("//div[@id='breadcrumb']") 打印到控制台，并且可以在屏幕上看到该节点。关于我在哪里出错的任何想法？

谢谢，丹尼斯

c#screen-scraping html-agility-pack

2010-01-22T15:46:18.403

0 投票

1 回答

1191 浏览

.net - 使用 Html Agility Pack 剥离 MS Word 标签

我有一个数据库，其中包含从 MS Word 粘贴的一些文本字段，我无法仅剥离 , 和标签，但显然保留了它们的 innerText。

我尝试过使用 HAP，但我没有朝着正确的方向前进..

此代码只是选择所需的元素并删除它们......但不保留它们的内部文本......

提前致谢

.net html html-agility-pack strip

2010-01-24T14:38:16.633

0 投票

1 回答

1788 浏览

html-parsing - 如何使用 HtmlAgility Pack 从某种形式获取输入？朗：C#.net

代码可以比我更好地解释这个问题。我还包括了我尝试过的替代方法。如果可能，请解释为什么这些其他方法也不起作用。我的想法已经用完了，遗憾的是 HtmlAgilityPack 的示例并不多。不过，我目前正在浏览文档以寻找更多想法。

我注意到的一件事是 .nextSibling 属性，我想我可以使用 while 循环来遍历表单，直到找不到下一个兄弟姐妹或表单结尾。

无论如何，这是代码：

html-parsing html-agility-pack

2010-02-01T06:35:29.737

0 投票

1 回答

266 浏览

html - 类似于 perl 的“html 敏捷包”模块

任何人都可以为 perl 推荐一个好的模块，如“html agility pack”（.net）或“Beautiful Soup”吗？

提前致谢！

html perl beautifulsoup html-agility-pack

2010-02-09T14:13:05.137

0 投票

1 回答

1059 浏览

regex - HTML 敏捷包与正则表达式

如果我正在创建一个简单的网络爬虫（从根 url 抓取所有链接，然后从这些链接抓取所有电子邮件）是否值得使用 HTML Agility Pack？我实际上并没有浏览 HTML 标签，我只是想在整个文档中扫描电子邮件。

使用 HTML 敏捷包会更有效吗？

我严格剥离它们，因为我必须拥有这些电子邮件，并且大约有 100 个链接。只会抓取大约 500 封电子邮件。不用担心，我在这里牢记道德。

regex html-agility-pack

2010-02-10T13:44:08.910

0 投票

1 回答

1762 浏览

c# - C#，解析 HTML 页面，使用 HTML Agility Pack

按照这个例子，我可以找到 LI 部分。

Html 敏捷包 - 解析 <li>

但是，我只想要位于 div 内的 LI 项目，其 id 为“res”。

我怎么做？

c#html html-agility-pack

2010-02-12T20:08:48.860

0 投票

2 回答

2720 浏览

xpath - XPath“之前的兄弟姐妹”

我正在尝试使用 XPath 1.0（或者可能使用正则表达式）选择元素 (a)，这些元素遵循特定元素 (b) 的同级元素，但仅在另一个 b 元素之前。

我试图使样本尽可能接近真实世界。所以在这种情况下，当我在元素

我需要选择

当我在

我需要选择

知道如何实现吗？谢谢！

xpath html-agility-pack

2010-02-17T12:49:58.837

0 投票

1 回答

3979 浏览

c# - 使用 HTML Agility Pack 抓取元标记和评论

我一直在寻找有关使用 HTML Agility Pack 的教程，因为它似乎可以完成我想要它做的所有事情，但对于如此强大的工具来说，互联网上似乎很少有关于它的噪音。

我正在编写一个简单的方法，它将根据名称检索任何给定的标签：

这可以使用正则表达式轻松完成，但我们都知道使用正则表达式解析 HTML 是不对的。到目前为止，我有以下代码：

我希望能够首先从 HTML 中删除所有注释，然后根据其名称返回正确的标签。如果可能的话，我还想根据属性返回某些元标记，例如机器人。我对 xpath 不是很好，所以任何帮助都会很好。

任何帮助将非常感激。

c#.net html-parsing html-agility-pack

2010-03-01T08:48:22.920

0 投票

2 回答

378 浏览

c# - 内置正则表达式类或解析器。如何从 html 文件中提取标签之间的文本？

我有 html 文件，其中包含我的 c#.net 应用程序中的表格内容和其他信息。

我只想解析一些列的表格内容。那么我应该在.net中使用html解析器还是Regex的Replace方法？

如果我使用解析器，那么如何使用解析器？解析器会提取标签之间的信息吗？如果是，那么如何使用？如果可能，请显示该示例，因为我是解析器的新手。

如果我使用Regex类的Replace方法，那么在该方法中如何传递我想要提取信息的文件名？

编辑：我想从 html 文件中的表中提取信息。为此，我该如何使用 html 敏捷解析器？我应该编写什么类型的代码来使用该解析器？

c#.net html-agility-pack

2010-03-03T10:18:46.030

0 投票

2 回答

24918 浏览

c# - 如何使用 HtmlAgilityPack 获取表单中的所有输入元素而不会出现空引用错误

示例 HTML：

测试代码：

该语句doc.GetElementbyId("form2").SelectNodes(".//input")给了我一个空引用。

我做错什么了吗？谢谢。

c#html parsing html-agility-pack

2010-03-05T10:01:25.317

1 2 3 4 5 6 7 8 9 10

问题标签 [html-agility-pack]

Reference