问题标签 [jericho-html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Noclassdeffounderror Jericho htmlparser
我正在开发一个使用 Jericho html 解析器的 Android 项目。应用程序启动,但是当我想在按下搜索按钮时使用解析器时,我收到以下错误:
我导入了 Jerco html 解析器 JAR 文件,所以这不应该是问题。我不知道为什么会发生这个错误!
有任何想法吗?
java - JAVA 的 JSP 和 HTML 解析器
我一直在使用 Jsoup 来解析我的 HTML 文件,到目前为止它做得很好。但是,它无法解析任何服务器标签( <% ... %> )。我决定扩展它,但我找不到一种简单的方法来扩展它的Parser和所有那些私有/包级别的类(即 TreeBuilder、TransitionState ......等)......
所以我开始研究Jericho,因为它声称它可以解析服务器标签 - 但是,它的文档太差了,我什至无法轻松入门。并且似乎它的 API 不像 Jsoup 提供的那样友好 - 提取一些节点并移动它并不是那么直接......
我想知道以前是否有人遇到过类似的情况以及如何解决?简而言之,我只想用Java解析JSP文件。(嗯..请不要让我自己实现一个;p)
java - java - 如何在Java中使用Jericho解析源中的所有链接,同时过滤或忽略具有特定ID的元素?
我正在使用 Jericho java 客户端库来解析所有 href 链接。我想要做的是过滤掉或跳过源中包含特定 id 的所有链接。我尝试了几件事,但我的解决方案并不漂亮,但基本上我可以通过检查以下内容来完成此操作:
但我更喜欢更清洁的解决方案。让我们假设这是来源:
只是一个小片段,但我希望它最终返回给我的只是“www.google.com”。我将不胜感激。谢谢。
html-parsing - 从多个页面的特定 HTML 位置提取文本
我一直在试验 Jericho HTML Parser 和 Selenium IDE,目的是从 HTML 内的特定位置跨多个页面提取文本。
我还没有找到一个简单的例子来说明如何做到这一点,我也不知道 java。
我想在一个文件夹中找到第一个表、第 4 行、第 1 个 div 中的所有 HTML 页面的任何文本字符串:
并将所选文本打印到列表中的 txt 文件,如下所示:
所有源文件都存储在本地,并且可能包含错误的 HTML,因此认为 Jericho 可能最适合此目的。但是,我很高兴学习任何方法来达到预期的结果。
java - 如何将 HTML 代码呈现或转换为从所见即所得编辑器生成的纯文本
我在我的 Web 应用程序中使用了所见即所得的编辑器 (CKEditor) 来为用户提供基本的文字处理器。我试图将该 CKEditor 的输出保存到 pdf 文档。我现在可以生成 pdf 文档,但问题是 CKEditor 的输出是 HTML 代码,并且它正在以 pdf 的形式发布。我想发布在 CKEditor 中看到的 pdf 文档,但我不希望 pdf 中的那些 HTML 标签。Java中是否有任何库可以通过消除那些html标签但保留它们的效果来呈现或将该html代码转换为纯文本,即如果HTML代码有This is Bold然后pdf应该保存为This is Bold不像
<b>
This is Bold</b>
java - 使用 Jericho 在两个特定文本之间提取数据
我正在使用 Jericho 来解析 Html。我有一个 html 页面,我需要在其中提取两个特定文本之间的数据。
如何使用 jercio提取第 7项和第 8 项之间的数据。
提前致谢
java - 将 Iterator 转换为带有索引的 for 循环以跳过对象
我正在使用Jericho HTML Parser来解析一些格式错误的 html。特别是我试图获取所有文本节点,处理文本然后替换它。
我想跳过处理中的特定元素。例如,我想跳过所有元素,以及任何具有属性 class="noProcess" 的元素。所以,如果一个 div 有 class="noProcess" 那么我想跳过这个 div 和所有子进程。但是,我确实希望这些跳过的元素在处理后返回到输出。
Jericho 为所有节点提供了一个迭代器,但我不确定如何从迭代器中跳过完整的元素。这是我的代码:
它看起来不像使用 ignoreWhenParsing() 方法对我有用,因为解析器只是将“忽略”元素视为文本。
我在想,如果我可以将 Iterator 循环转换为 for (int i = 0;...) 循环,我可能能够通过修改 i 指向 EndTag 来跳过元素及其所有子元素,然后继续循环....但不确定。
java - jericho-html - 文本提取和不正确的文本长度
今天我尝试使用lib as jericho-html-3.2从简单的html中提取文本......我遇到了一个奇怪的文本假长度问题,如下所示:
如果我有 html 作为这个
...我的RichTextArea getText().length()
返回42,它实际上是正确的长度,但是当我尝试使用类似的代码从这个 html 中提取文本时
...text.length()
回报44
所以我不明白为什么长度为42的文本变成长度为44的文本以及如何修复它?
谢谢
java - java从html解析文本而不包括链接
我试图图书馆 jericho 和 jsoup。但不幸的是,解析的文本包含链接。事实上,我正在尝试对 html 文本进行标记以查找关键字,而这两个库正在产生很多非常难以处理的噪音。
通过此链接:
http://jobview.monster.com/Sr-Java-Developer-Job-Baltimore-MD-126949729.aspx
我收到如下噪音:1061349 20baltimore 2c 2f
所有这些都来自链接/ src 等标签。
如何防止这些链接元素出现在解析的文本中?
谢谢
html - 如何访问html代码中的元素
1-我编写什么代码来获取此代码中的所有“想要访问”元素,没有其他元素,如“一些数据”,只想要 div 类 bestMFdtl2中的元素。
2-如果我想根据选择如何在此代码中包含一些特定元素,我正在使用 html jerico 解析器。请帮助我,那些在阅读代码时遇到问题的人我很抱歉,但你是我认为你喜欢的程序员这个。
3-如何从标签中获取href链接。