问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5862 浏览

php - 依次通过
使用 PHP 的元素

我在一个字符串中有一个 html 块,它基本上是一个 div 列表......每个 div 里面都有我想单独解析的 html。

我很难弄清楚如何循环遍历初始 div。

任何人都可以帮忙吗?

html的一个例子:

在这个例子中,我希望最终代码循环 4 次,并为我提供每个 div 的内容

0 投票
4 回答
885 浏览

c# - 用 html 值替换 xml 标记

我正在使用 c# .Net

我有个问题,

我正在加载 Xml 文件XDocument.xDoc.Load(file),但它失败了,因为在我的内容中我也有 xml 标签:

例子:<root><abc><deg></abc></root>

我的问题是该Load函数将<deg>视为 Xml 标记而没有匹配的“ </deg>”...

我的问题是,如何以最简单的方式将“deg”的“<”和“>”替换为匹配的“ &lt;”“ &gt;”?

注意我的文件很大而且我有很多标签...

谢谢!

0 投票
4 回答
2613 浏览

regex - 我可以使用什么正则表达式从 Google 搜索中提取 URL?

我将 Delphi 与 JCLRegEx 一起使用,并希望从谷歌搜索中捕获所有结果 URL。我查看了 HackingSearch.com,他们有一个看起来正确的示例 RegEx,但是当我尝试它时无法得到任何结果。

我使用它类似于:

正则表达式可在hackingsearch.com 获得

我使用的是 Delphi Jedi 版本,因为每次我安装 TPerlRegEx 我都会与两者发生冲突......

0 投票
2 回答
97 浏览

whitespace - 在网页源代码中添加空格,以便我可以阅读它

  1. 我很好奇我正在查看的网页。
  2. 我使用“view--page source”并获得一个带有 html 的窗口。
  3. 我将其剪切并粘贴到记事本++中。

  4. 我通过添加空格手动解析以使其可读。

有没有更好的方法来完成最后一步?我希望已经编写了一些东西来自动化这个过程,给用户一个可读的源文件版本。

谢谢你的帮助。

-账单

0 投票
4 回答
1900 浏览

java - 用于 HTML 分析的 Java 库

(我见过类似的问题,但我认为它们都不能满足我的特定需求,因此......)

我想知道是否有用于分析现实世界(阅读:不完整、格式错误)HTML 的 Java 库。通过分析,我的意思是:

  • 找出 HTML 块中最突出的颜色
  • 将该颜色更改为其他颜色(因此,还必须支持修改 HTML)
  • 修剪掉不需要的标签
  • 修复 HTML 以生成格式良好的 HTML 片段

最后两个部分由 Jericho 和 jTidy 等库完成。在这些之上的“插件”会很棒。

提前致谢!

0 投票
2 回答
802 浏览

html - PHP Regex:获取 HTML 标签组之间的信息?

我一直在编写一个单词解读器。我需要解析一组标签和另一个标签之间的信息,并将所有匹配项放入一个数组中。开始标签是:

结束标签是:

我知道一些正则表达式,但我不熟悉 PHP。

0 投票
1 回答
220 浏览

c++ - 索引html的文本内容

我想从 html 文件中提取文本以进行索引,并尽可能快地这样做。我不想从头开始创建东西,而是想看看我能找到多少已经为我完成的事情。

目前我只是在输出 html2text 的输出,它可以工作,但是在 python 和试图美化文本之间,我确信速度可以提高。

那么,以 Linux/unix 为优先,哪些 (c/c++) 库最适合此类任务?

0 投票
2 回答
2964 浏览

python - GAE 的 HTML 解析器

通常我使用lxml来满足我的 HTML 解析需求,但这在 Google App Engine 上不可用。显而易见的替代方案是BeautifulSoup,但我发现它在格式错误的 HTML 上太容易窒息了。目前我正在测试libxml2dom并取得了更好的结果。

您发现哪个纯 Python HTML 解析器性能最好?我的首要任务是处理不良 HTML 超过速度的能力。

0 投票
3 回答
195763 浏览

java - 如何使用 Java 有效地解析 HTML?

我在我的工作中做了很多 HTML 解析。到目前为止,我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化。

现在,我想将这两个任务分开。

我想使用一个轻量级的 HTML 解析器,因为在 HtmlUnit 中首先加载页面需要很长时间,然后获取源代码然后解析它。

我想知道哪个 HTML 解析器可以有效地解析 HTML。我需要

  1. 速度
  2. 通过其“id”或“名称”或“标签类型”轻松定位任何 HtmlElement。

如果它不清理脏的 HTML 代码,对我来说没问题。我不需要清理任何 HTML 源代码。我只需要一种最简单的方法来移动 HtmlElements 并从中收集数据。

0 投票
1 回答
1788 浏览

html-parsing - 如何使用 HtmlAgility Pack 从某种形式获取输入?朗:C#.net

代码可以比我更好地解释这个问题。我还包括了我尝试过的替代方法。如果可能,请解释为什么这些其他方法也不起作用。我的想法已经用完了,遗憾的是 HtmlAgilityPack 的示例并不多。不过,我目前正在浏览文档以寻找更多想法。

我注意到的一件事是 .nextSibling 属性,我想我可以使用 while 循环来遍历表单,直到找不到下一个兄弟姐妹或表单结尾。

无论如何,这是代码: