问题标签 [jericho-html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
825 浏览

java - Noclassdeffounderror Jericho htmlparser

我正在开发一个使用 Jericho html 解析器的 Android 项目。应用程序启动,但是当我想在按下搜索按钮时使用解析器时,我收到以下错误:

我导入了 Jerco html 解析器 JAR 文件,所以这不应该是问题。我不知道为什么会发生这个错误!

有任何想法吗?

0 投票
1 回答
7679 浏览

java - JAVA 的 JSP 和 HTML 解析器

我一直在使用 Jsoup 来解析我的 HTML 文件,到目前为止它做得很好。但是,它无法解析任何服务器标签( <% ... %> )。我决定扩展它,但我找不到一种简单的方法来扩展它的Parser和所有那些私有/包级别的类(即 TreeBuilder、TransitionState ......等)......

所以我开始研究Jericho,因为它声称它可以解析服务器标签 - 但是,它的文档太差了,我什至无法轻松入门。并且似乎它的 API 不像 Jsoup 提供的那样友好 - 提取一些节点并移动它并不是那么直接......

我想知道以前是否有人遇到过类似的情况以及如何解决?简而言之,我只想用Java解析JSP文件。(嗯..请不要让我自己实现一个;p)

0 投票
2 回答
1048 浏览

java - java - 如何在Java中使用Jericho解析源中的所有链接,同时过滤或忽略具有特定ID的元素?

我正在使用 Jericho java 客户端库来解析所有 href 链接。我想要做的是过滤掉或跳过源中包含特定 id 的所有链接。我尝试了几件事,但我的解决方案并不漂亮,但基本上我可以通过检查以下内容来完成此操作:

但我更喜欢更清洁的解决方案。让我们假设这是来源:

只是一个小片段,但我希望它最终返回给我的只是“www.google.com”。我将不胜感激。谢谢。

0 投票
1 回答
253 浏览

html-parsing - 从多个页面的特定 HTML 位置提取文本

我一直在试验 Jericho HTML Parser 和 Selenium IDE,目的是从 HTML 内的特定位置跨多个页面提取文本。

我还没有找到一个简单的例子来说明如何做到这一点,我也不知道 java。

我想在一个文件夹中找到第一个表、第 4 行、第 1 个 div 中的所有 HTML 页面的任何文本字符串:

并将所选文本打印到列表中的 txt 文件,如下所示:

所有源文件都存储在本地,并且可能包含错误的 HTML,因此认为 Jericho 可能最适合此目的。但是,我很高兴学习任何方法来达到预期的结果。

0 投票
2 回答
1303 浏览

java - 如何将 HTML 代码呈现或转换为从所见即所得编辑器生成的纯文本

我在我的 Web 应用程序中使用了所见即所得的编辑器 (CKEditor) 来为用户提供基本的文字处理器。我试图将该 CKEditor 的输出保存到 pdf 文档。我现在可以生成 pdf 文档,但问题是 CKEditor 的输出是 HTML 代码,并且它正在以 pdf 的形式发布。我想发布在 CKEditor 中看到的 pdf 文档,但我不希望 pdf 中的那些 HTML 标签。Java中是否有任何库可以通过消除那些html标签但保留它们的效果来呈现或将该html代码转换为纯文本,即如果HTML代码有This is Bold然后pdf应该保存为This is Bold不像 <b>This is Bold</b>

0 投票
1 回答
266 浏览

java - 使用 Jericho 在两个特定文本之间提取数据

我正在使用 Jericho 来解析 Html。我有一个 html 页面,我需要在其中提取两个特定文本之间的数据。

如何使用 jercio提取第 7项和第 8 项之间的数据。

提前致谢

0 投票
3 回答
361 浏览

java - 将 Iterator 转换为带有索引的 for 循环以跳过对象

我正在使用Jericho HTML Parser来解析一些格式错误的 html。特别是我试图获取所有文本节点,处理文本然后替换它。

我想跳过处理中的特定元素。例如,我想跳过所有元素,以及任何具有属性 class="noProcess" 的元素。所以,如果一个 div 有 class="noProcess" 那么我想跳过这个 div 和所有子进程。但是,我确实希望这些跳过的元素在处理后返回到输出。

Jericho 为所有节点提供了一个迭代器,但我不确定如何从迭代器中跳过完整的元素。这是我的代码:

它看起来不像使用 ignoreWhenParsing() 方法对我有用,因为解析器只是将“忽略”元素视为文本。

我在想,如果我可以将 Iterator 循环转换为 for (int i = 0;...) 循环,我可能能够通过修改 i 指向 EndTag 来跳过元素及其所有子元素,然后继续循环....但不确定。

0 投票
2 回答
489 浏览

java - jericho-html - 文本提取和不正确的文本长度

今天我尝试使用lib as jericho-html-3.2从简单的html中提取文本......我遇到了一个奇怪的文本假长度问题,如下所示:

如果我有 html 作为这个

...我的RichTextArea getText().length()返回42,它实际上是正确的长度,但是当我尝试使用类似的代码从这个 html 中提取文本时

...text.length()回报44

所以我不明白为什么长度为42的文本变成长度为44的文本以及如何修复它?

谢谢

0 投票
1 回答
469 浏览

java - java从html解析文本而不包括链接

我试图图书馆 jericho 和 jsoup。但不幸的是,解析的文本包含链接。事实上,我正在尝试对 html 文本进行标记以查找关键字,而这两个库正在产生很多非常难以处理的噪音。

通过此链接:

http://jobview.monster.com/Sr-Java-Developer-Job-Baltimore-MD-126949729.aspx

我收到如下噪音:1061349 20baltimore 2c 2f

所有这些都来自链接/ src 等标签。

如何防止这些链接元素出现在解析的文本中?

谢谢

0 投票
1 回答
166 浏览

html - 如何访问html代码中的元素

1-我编写什么代码来获取此代码中的所有“想要访问”元素,没有其他元素,如“一些数据”,只想要 div 类 bestMFdtl2中的元素。

2-如果我想根据选择如何在此代码中包含一些特定元素,我正在使用 html jerico 解析器。请帮助我,那些在阅读代码时遇到问题的人我很抱歉,但你是我认为你喜欢的程序员这个。

3-如何从标签中获取href链接。