问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
109808 浏览

c# - HTML 敏捷包 - 解析表

我想使用 HTML 敏捷包来解析来自复杂网页的表格,但我不知何故迷失在对象模型中。

我查看了链接示例,但没有以这种方式找到任何表格数据。我可以使用 XPath 来获取表格吗?在加载有关如何获取表格的数据后,我基本上迷失了。我以前在 Perl 中做过这个,有点笨拙,但是很有效。( HTML::TableParser)。

如果有人能阐明解析的正确对象顺序,我也很高兴。

0 投票
7 回答
4128 浏览

java - 如何在 HTML 文件中搜索某些标签?

我在 Java 中遇到了一个小问题。如何做到这一点:我想在 HTML 文件中搜索标签 href 和 src,然后我想获取与该标签关联的 URL。

最好的方法是什么?

谢谢您的帮助。最好的祝福。

0 投票
7 回答
3517 浏览

html - 可变顺序正则表达式语法

有没有办法表明两个或多个正则表达式可以以任何顺序出现?例如,XML 属性可以按任何顺序编写。假设我有以下 XML:

我将如何编写一个检查类和标题并适用于这两种情况的匹配项?我主要是在寻找允许我以任何顺序检查的语法,而不仅仅是匹配类和标题,因为我可以做到这一点。除了包含两个组合并用“|”连接它们之外,还有什么办法吗?

编辑:我的偏好是在单个正则表达式中执行它,因为我正在以编程方式构建它并对其进行单元测试。

0 投票
1 回答
1444 浏览

.net - 从 HTML 标签汤生成 .NET XmlDocument 的库

我正在寻找一个 .NET 库,它可以从无效的 HTML 代码生成干净的 Xml 树,最好是 System.Xml.XmlDocument。IE 在遇到这种情况时应该尽最大努力猜测、修复和替换浏览器,并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。:)

我意识到这有很多(太多了?)要问,我会很感激任何有用的线索。对于 Java,似乎有相当多的实现,但我宁愿不生成自己的绑定。到目前为止,对于 .NET,我发现http://www.majestic12.co.uk/projects/html_parser.phphttp://users.rcn.com/creitzel/tidy.html#dotnethttp://sourceforge .net/projects/tidyfornet

我还没有构建或测试任何这些,但是从(稀疏的)文档和罕见的更新来看,它们似乎没有我想要的东西。那么你有什么建议,无论是在这些选择中,还是从你过去的经验中。

0 投票
6 回答
49012 浏览

python - 在 Python 中解析 HTML

如果我不能使用 BeautifulSoup 或 lxml,那么解析 HTML 的最佳选择是什么?我有一些使用 SGMLlib 的代码,但它有点低级,现在已弃用。

我更喜欢它可以忍受一些格式错误的 HTML,尽管我很确定大部分输入都会很干净。

0 投票
6 回答
20502 浏览

php - 如何从 html 标签中删除属性?

如何使用 php 从标签中删除所有/任何属性,比如段落标签?

<p class="one" otherrandomattribute="two"><p>

0 投票
29 回答
30874 浏览

html - 你能提供解析HTML的例子吗?

如何用多种语言和解析库解析 HTML?


回答时:

个别评论将链接到有关如何使用正则表达式解析 HTML 的问题的答案中,以显示正确的做事方式。

为了保持一致性,我要求该示例为hrefin 锚标记解析 HTML 文件。为了便于搜索此问题,我要求您遵循此格式

语言:[语言名称]

图书馆:[图书馆名称]

请将图书馆作为图书馆文档的链接。如果您想提供除提取链接以外的示例,还请包括:

目的:[解析的作用]

0 投票
1 回答
2173 浏览

html-parsing - 使用 nutch 1.0 和自定义插件解析 html 数据

我目前正在尝试为 nutch 1.0 编写一个自定义插件。这个插件应该解析 html 数据并从文档中过滤掉相关信息。我有一个基本插件工作,它扩展了 HtmlParserResult 对象,并且每次我进行解析时都会执行。

我目前面临两个问题:

  1. 我不太了解 nutch 解析的工作流程/管道。我在 nutch 网站上找不到有关此的信息。

  2. 我不明白 DOM 解析是如何完成的,我看到 Nutch 有一组 DOM 对象,并且 HtmlParser 插件进行了一些 DOM 解析,但我仍然没有弄清楚如何最好地完成。

0 投票
1 回答
7341 浏览

c# - Html 敏捷包 - 解析
  • 我想从简单的网站上抓取一个事实列表。每个事实都包含在一个<li>标签中。我将如何使用 Html Agility Pack 做到这一点?有更好的方法吗?

    <li>标签中包含的唯一内容是事实,仅此而已。

    0 投票
    4 回答
    21233 浏览

    php - 如何使用 dom php 解析器

    我是 PHP 中 DOM 解析的新手:
    我有一个要解析的 HTML 文件。它有一堆像这样的DIV:

    我正在尝试使用 php 获取许多 div 框的内容。如何使用 DOM 解析器来执行此操作?

    谢谢!