“jericho-html-parser”的相关标签问题

0 投票

1 回答

825 浏览

java - Noclassdeffounderror Jericho htmlparser

我正在开发一个使用 Jericho html 解析器的 Android 项目。应用程序启动，但是当我想在按下搜索按钮时使用解析器时，我收到以下错误：

我导入了 Jerco html 解析器 JAR 文件，所以这不应该是问题。我不知道为什么会发生这个错误！

有任何想法吗？

2012-09-17T07:51:40.020

0 投票

1 回答

7679 浏览

java - JAVA 的 JSP 和 HTML 解析器

我一直在使用 Jsoup 来解析我的 HTML 文件，到目前为止它做得很好。但是，它无法解析任何服务器标签（ <% ... %> ）。我决定扩展它，但我找不到一种简单的方法来扩展它的Parser和所有那些私有/包级别的类（即 TreeBuilder、TransitionState ......等）......

所以我开始研究Jericho，因为它声称它可以解析服务器标签 - 但是，它的文档太差了，我什至无法轻松入门。并且似乎它的 API 不像 Jsoup 提供的那样友好 - 提取一些节点并移动它并不是那么直接......

我想知道以前是否有人遇到过类似的情况以及如何解决？简而言之，我只想用Java解析JSP文件。（嗯..请不要让我自己实现一个；p）

java parsing jsp jsoup jericho-html-parser

2012-10-30T12:34:10.053

0 投票

2 回答

1048 浏览

java - java - 如何在Java中使用Jericho解析源中的所有链接，同时过滤或忽略具有特定ID的元素？

我正在使用 Jericho java 客户端库来解析所有 href 链接。我想要做的是过滤掉或跳过源中包含特定 id 的所有链接。我尝试了几件事，但我的解决方案并不漂亮，但基本上我可以通过检查以下内容来完成此操作：

但我更喜欢更清洁的解决方案。让我们假设这是来源：

只是一个小片段，但我希望它最终返回给我的只是“www.google.com”。我将不胜感激。谢谢。

java jericho-html-parser

2012-12-05T04:36:46.410

0 投票

1 回答

253 浏览

html-parsing - 从多个页面的特定 HTML 位置提取文本

我一直在试验 Jericho HTML Parser 和 Selenium IDE，目的是从 HTML 内的特定位置跨多个页面提取文本。

我还没有找到一个简单的例子来说明如何做到这一点，我也不知道 java。

我想在一个文件夹中找到第一个表、第 4 行、第 1 个 div 中的所有 HTML 页面的任何文本字符串：

并将所选文本打印到列表中的 txt 文件，如下所示：

所有源文件都存储在本地，并且可能包含错误的 HTML，因此认为 Jericho 可能最适合此目的。但是，我很高兴学习任何方法来达到预期的结果。

html-parsing text-extraction jericho-html-parser

2013-03-12T18:44:22.180

0 投票

2 回答

1303 浏览

java - 如何将 HTML 代码呈现或转换为从所见即所得编辑器生成的纯文本

我在我的 Web 应用程序中使用了所见即所得的编辑器 (CKEditor) 来为用户提供基本的文字处理器。我试图将该 CKEditor 的输出保存到 pdf 文档。我现在可以生成 pdf 文档，但问题是 CKEditor 的输出是 HTML 代码，并且它正在以 pdf 的形式发布。我想发布在 CKEditor 中看到的 pdf 文档，但我不希望 pdf 中的那些 HTML 标签。Java中是否有任何库可以通过消除那些html标签但保留它们的效果来呈现或将该html代码转换为纯文本，即如果HTML代码有This is Bold然后pdf应该保存为This is Bold不像 <b>This is Bold</b>

java html parsing html-parsing jericho-html-parser

2013-03-21T14:11:20.970

0 投票

1 回答

266 浏览