问题标签 [html-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5774 问题

0 投票

5 回答

109808 浏览

c# - HTML 敏捷包 - 解析表

我想使用 HTML 敏捷包来解析来自复杂网页的表格，但我不知何故迷失在对象模型中。

我查看了链接示例，但没有以这种方式找到任何表格数据。我可以使用 XPath 来获取表格吗？在加载有关如何获取表格的数据后，我基本上迷失了。我以前在 Perl 中做过这个，有点笨拙，但是很有效。( HTML::TableParser)。

如果有人能阐明解析的正确对象顺序，我也很高兴。

c#html html-parsing html-agility-pack

weismat

2009-03-17T19:00:18.700

0 投票

7 回答

4128 浏览

java - 如何在 HTML 文件中搜索某些标签？

我在 Java 中遇到了一个小问题。如何做到这一点：我想在 HTML 文件中搜索标签 href 和 src，然后我想获取与该标签关联的 URL。

最好的方法是什么？

谢谢您的帮助。最好的祝福。

java html html-parsing

arpf

2009-03-23T10:01:47.337

0 投票

7 回答

3517 浏览

html - 可变顺序正则表达式语法

有没有办法表明两个或多个正则表达式可以以任何顺序出现？例如，XML 属性可以按任何顺序编写。假设我有以下 XML：

我将如何编写一个检查类和标题并适用于这两种情况的匹配项？我主要是在寻找允许我以任何顺序检查的语法，而不仅仅是匹配类和标题，因为我可以做到这一点。除了包含两个组合并用“|”连接它们之外，还有什么办法吗？

编辑：我的偏好是在单个正则表达式中执行它，因为我正在以编程方式构建它并对其进行单元测试。

html regex html-parsing

VirtuosiMedia

2009-03-31T01:32:19.510

0 投票

1 回答

1444 浏览

.net - 从 HTML 标签汤生成 .NET XmlDocument 的库

我正在寻找一个 .NET 库，它可以从无效的 HTML 代码生成干净的 Xml 树，最好是 System.Xml.XmlDocument。IE 在遇到这种情况时应该尽最大努力猜测、修复和替换浏览器，并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。:)

我意识到这有很多（太多了？）要问，我会很感激任何有用的线索。对于 Java，似乎有相当多的实现，但我宁愿不生成自己的绑定。到目前为止，对于 .NET，我发现http://www.majestic12.co.uk/projects/html_parser.php和http://users.rcn.com/creitzel/tidy.html#dotnet和http://sourceforge .net/projects/tidyfornet。

我还没有构建或测试任何这些，但是从（稀疏的）文档和罕见的更新来看，它们似乎没有我想要的东西。那么你有什么建议，无论是在这些选择中，还是从你过去的经验中。

.net clr html-parsing xmldocument html-agility-pack

Matthew Flaschen

2009-04-01T09:53:21.670

0 投票

6 回答

49012 浏览