问题标签 [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 依次通过使用 PHP 的元素
我在一个字符串中有一个 html 块,它基本上是一个 div 列表......每个 div 里面都有我想单独解析的 html。
我很难弄清楚如何循环遍历初始 div。
任何人都可以帮忙吗?
html的一个例子:
在这个例子中,我希望最终代码循环 4 次,并为我提供每个 div 的内容
c# - 用 html 值替换 xml 标记
我正在使用 c# .Net
我有个问题,
我正在加载 Xml 文件XDocument.xDoc.Load(file)
,但它失败了,因为在我的内容中我也有 xml 标签:
例子:<root><abc><deg></abc></root>
我的问题是该Load
函数将<deg>
视为 Xml 标记而没有匹配的“ </deg>
”...
我的问题是,如何以最简单的方式将“deg”的“<”和“>”替换为匹配的“ <
”“ >
”?
注意我的文件很大而且我有很多标签...
谢谢!
regex - 我可以使用什么正则表达式从 Google 搜索中提取 URL?
我将 Delphi 与 JCLRegEx 一起使用,并希望从谷歌搜索中捕获所有结果 URL。我查看了 HackingSearch.com,他们有一个看起来正确的示例 RegEx,但是当我尝试它时无法得到任何结果。
我使用它类似于:
正则表达式可在hackingsearch.com 获得
我使用的是 Delphi Jedi 版本,因为每次我安装 TPerlRegEx 我都会与两者发生冲突......
whitespace - 在网页源代码中添加空格,以便我可以阅读它
- 我很好奇我正在查看的网页。
- 我使用“view--page source”并获得一个带有 html 的窗口。
我将其剪切并粘贴到记事本++中。
我通过添加空格手动解析以使其可读。
有没有更好的方法来完成最后一步?我希望已经编写了一些东西来自动化这个过程,给用户一个可读的源文件版本。
谢谢你的帮助。
-账单
java - 用于 HTML 分析的 Java 库
(我见过类似的问题,但我认为它们都不能满足我的特定需求,因此......)
我想知道是否有用于分析现实世界(阅读:不完整、格式错误)HTML 的 Java 库。通过分析,我的意思是:
- 找出 HTML 块中最突出的颜色
- 将该颜色更改为其他颜色(因此,还必须支持修改 HTML)
- 修剪掉不需要的标签
- 修复 HTML 以生成格式良好的 HTML 片段
最后两个部分由 Jericho 和 jTidy 等库完成。在这些之上的“插件”会很棒。
提前致谢!
html - PHP Regex:获取 HTML 标签组之间的信息?
我一直在编写一个单词解读器。我需要解析一组标签和另一个标签之间的信息,并将所有匹配项放入一个数组中。开始标签是:
结束标签是:
我知道一些正则表达式,但我不熟悉 PHP。
c++ - 索引html的文本内容
我想从 html 文件中提取文本以进行索引,并尽可能快地这样做。我不想从头开始创建东西,而是想看看我能找到多少已经为我完成的事情。
目前我只是在输出 html2text 的输出,它可以工作,但是在 python 和试图美化文本之间,我确信速度可以提高。
那么,以 Linux/unix 为优先,哪些 (c/c++) 库最适合此类任务?
python - GAE 的 HTML 解析器
通常我使用lxml来满足我的 HTML 解析需求,但这在 Google App Engine 上不可用。显而易见的替代方案是BeautifulSoup,但我发现它在格式错误的 HTML 上太容易窒息了。目前我正在测试libxml2dom并取得了更好的结果。
您发现哪个纯 Python HTML 解析器性能最好?我的首要任务是处理不良 HTML 超过速度的能力。
java - 如何使用 Java 有效地解析 HTML?
我在我的工作中做了很多 HTML 解析。到目前为止,我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化。
现在,我想将这两个任务分开。
我想使用一个轻量级的 HTML 解析器,因为在 HtmlUnit 中首先加载页面需要很长时间,然后获取源代码然后解析它。
我想知道哪个 HTML 解析器可以有效地解析 HTML。我需要
- 速度
- 通过其“id”或“名称”或“标签类型”轻松定位任何 HtmlElement。
如果它不清理脏的 HTML 代码,对我来说没问题。我不需要清理任何 HTML 源代码。我只需要一种最简单的方法来移动 HtmlElements 并从中收集数据。
html-parsing - 如何使用 HtmlAgility Pack 从某种形式获取输入?朗:C#.net
代码可以比我更好地解释这个问题。我还包括了我尝试过的替代方法。如果可能,请解释为什么这些其他方法也不起作用。我的想法已经用完了,遗憾的是 HtmlAgilityPack 的示例并不多。不过,我目前正在浏览文档以寻找更多想法。
我注意到的一件事是 .nextSibling 属性,我想我可以使用 while 循环来遍历表单,直到找不到下一个兄弟姐妹或表单结尾。
无论如何,这是代码: