问题标签 [jericho-html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何在 Java 中使用 Jericho 查找自定义开始标签?
正如标题所说,我正在尝试以以下形式匹配非标准 StartTagType<foo:bar ...>
我将如何处理 Jericho?
编辑:
我创建了以下自定义 StartTagType:
...和:
但是,当我做 a 时source.getAllElements(...)
,我没有得到任何匹配。
java - jTidy 和 TagSoup 文档
我正在寻找 TagSoup 和 jTidy 库的文档(如果可能的话,官方文档)。
我想使用这个库来操作 html“tagsoup”文件,这些文件包括 xml 标记,其中不同的命名空间混合在 html(html、xhtml 或 html5)标记之间。
我已经测试过 HTMLCleaner、NekoHTML 和 Jericho,但除了清除文件的最简单示例之外,我没有找到 jTidy 和 TagSoup 的文档。
我需要有关操作内容、替换标签、提取信息等的文档...
谢谢
注意:测试所有选项后,我使用了StAX / Woodstox:
java - Jericho-html:是否可以参考源文件中的位置提取文本?
我使用Jericho HTML Parser 3.1。
我需要从 html 中提取文本,处理它,根据这个,我需要将标签插入到原始 html 中。
但为此,我需要在提取的文本和源 html 之间进行匹配。
net.htmlparser.jericho.TextExtractor
提取文本非常好,但我无法找到如何在原始文件中找到位置。
Jericho-html 可以这样做吗?
java - 如何使用 Jericho HTML 解析器在特定标签之间获取文本和其他标签?
我有一个包含特定标签的 HTML 文件,例如<TABLE cellspacing=0>
,结束标签是</TABLE>
. 现在我想获取这些标签之间的所有内容。我在 Java 中使用 Jericho HTML 解析器来解析 HTML。是否可以在 Jericho 解析器中的特定标签之间获取文本和其他标签?
例如:
回答:
java - 使用解析器更新 HTML 页面中的文本
我总是middlebitparent.replaceWith(nodespan);
在以下代码中出现错误,该代码是用 jsoup 编写的,用于导航 HTML 文档并更改单词“In”的背景颜色
错误说
更新:
是否有任何解析器可以以简单的方式更新文本节点中的文本
xquery - 获取 HTML 页面中文本中的特定单词
如果我有以下 HTML 页面
我想获取特定单词,例如“你好”,并将其更改为“欢迎”,无论它们在文档中的哪个位置
你有什么建议吗?无论您使用哪种类型的解析器,我都会很高兴得到您的答案?
html-parser - 与 Jericho HTML Parser 相关的查询
我想使用解析器确定正文中特定 H2(或 h3/h4/h5/h6)文本的出现位置数。通过位置编号,我的意思是在这个特定的 h2(或 h3/h4/h5/h6)短语之前出现的“单词”的数量......此外,如果一个短语同时出现在 h2 和 h4 文本中(例如),那么如何确保我获得这两个文本的正确位置编号?
java - Java 中的漂亮打印(“仅缩进”)HTML 文档(没有 JTidy)
我们正在使用 apache 速度通用模板引擎生成 HTML 文件。生成的 HTML 有点丑陋,而且没有正确的缩进。
在我的情况下,我将 HTML 存储在我想以这种方式操作的字符串中,它看起来很漂亮。
我已经尝试过 JTidy,但是当我通过管道传输原始 HTML 时,它会更改 HTML 源代码。有时它会添加或删除 HTML 标记。
我的问题:
是否有 java 库或其他东西(仅!)可以漂亮地打印我的 HTML 代码,而无需从我的 HTML 文档中添加、删除标签?它只会做缩进,所以它看起来很漂亮!不多也不少。有任何想法吗?:-)
也欢迎代码建议、提示或技巧。
此致
java - How to parse XML using Jericho HTML Parser
I'm new to java and servlet and currently trying to parse XML using Jericho XML Parser. For instance, i want to get links from each link tag, but it dose not show anything,and total number says 27(can get only correct total number without string). Anyone who knows how to, please teach me.
java - 为什么 Jericho 解析器不能解析这段 HTML 代码?
我在我的应用程序中使用 jericho 解析器来获得一个更轻量级的网页版本,从中提取一些部分。所以,例如,当我得到这个代码时:
我想使用 jericho 解析器再次解析它,但是当我运行时
我得到了这个例外
并且应用程序崩溃了……那么,较轻的页面有什么问题?