问题标签 [jericho-html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
434 浏览

java - 使用jericho在java中验证html标签

使用jericho api,我可以验证给定的 html 标签<input type="test" .....>吗?我无法在 jericho 中找到可以这样做的 api。有没有一种方法可以让我jericho只使用它?我不想整理或清理 html 标签。我只是想检查它的有效性。

0 投票
1 回答
597 浏览

java - 如何使用jericho从嵌套的html元素中获取文本?

0 投票
1 回答
107 浏览

java - 想要访问属性值

我需要有关 html 解析器的帮助我想获取标记“a”的第一个属性“href”值请解决我的问题。我想从代码http://myneta.info/gujarat2012/candidate.php 获取此链接? Candidate_id=1591,我正在附上快照,请查看并提供一些解决方案,我已经尝试过此代码,但不适用于我 -

这是图像

0 投票
1 回答
155 浏览

jericho-html-parser - 如何使用 jericho html 解析器从 html 或 jsp 页面获取评论

如何从 html 和 jsp 页面获取类似//Comments&的评论。/*Comments*/

我有评论<!--Comments-->,,,<%--Comments--%><%Comments%>下列方式使用 jericho html 解析器。

但我无法找到//& /*Comments*/

0 投票
2 回答
2316 浏览

java - 使用 Java 从 HTML 中提取文本,包括源代码行号和代码

如何使用 Java 从 HTML 中提取文本的问题已被查看和重复了无数次: 从 HTML Java 中提取文本

感谢在 Stackoverflow 上找到的答案,我目前的情况是我正在使用JSoup

和这段或代码:

现在我还想显示手头的 textNode 来自的行号和原始 html 源代码。我怀疑 JSoup 可以做到这一点(例如参见

并尝试解决方法:

无法可靠地找到原始 html。所以我想我可能不得不切换到另一个库或方法。Jericho-html:是否可以参考源文件中的位置提取文本?正如上面的链接也指出的那样,有一个答案说“杰里科可以做到”。但是缺少指向实际工作代码的指针。

在杰里科,我做到了:

这已经很好了,因为它会给你这样的输出:

但现在的后续问题是 TextExtractor 递归输出所有子节点的整个文本,以便文本多次显示。

什么是过滤以及上述 JSoup 解决方案(请注意文本元素的正确顺序)但显示源代码行的有效解决方案,如上述 Jericho 代码片段一样?

0 投票
0 回答
80 浏览

jericho-html-parser - 如何使用 Jericho HTML Parser 添加隐藏的输入标签?

对于 HTML 页面中的每个表单,我想在它通过 JEE 过滤器时添加一个额外的隐藏输入标记。例如,对于给定的 HTML 页面:

最终结果应该与此类似:

由于 HTML 可能格式不正确,我认为 Jericho 将是首选的 HTML 解析器。在浏览了几次网页之后,我找到了更改现有标签值的方法,但是如何添加额外的标签让我无法理解。

提前感谢您的帮助。

0 投票
1 回答
355 浏览

java - 如何从网站检索所有用户评论?

我想要来自这个网站的所有用户评论:http: //www.consumercomplaints.in/?search=chevrolet

问题是评论只是部分显示,要查看完整的评论,我必须单击它上面的标题,并且必须对所有评论重复此过程。

另一个问题是评论页面很多。

因此,我想将所有完整评论存储在上述指定站点的 excel 表中。这可能吗 ?我正在考虑将 crawler4j 和 jericho 与 Eclipse 一起使用。

我的 visitPage 方法代码:@Override public void visit(Page page) {
String url = page.getWebURL().getURL(); System.out.println("网址:" + url);

提前致谢。任何帮助,将不胜感激。

0 投票
0 回答
878 浏览

java - Java/Android HTML 自定义标签解析器

我试图找出一种方法来解析带有自定义标签的 html 文件,格式如下:

这是我正在使用的文件的示例:

我想要(在理想的世界中)返回的是元素列表):

上面列表中的元素包含:

文本:

自定义标签:

关联:

文本:

我试过的:

  1. Jsoup
    Jsoup 很棒,它非常适合 HTML。问题是我无法定义带有打开“[”和关闭“]”的自定义标签。如我错了请纠正我?
  2. Jericho
    和 Jsoup 一样,Jericho 工作得很好……除了定义自定义标签。您需要使用“<”。
  3. Java Regex
    这是我真的不想选择的选项。它不可靠,并且存在很多脆弱的字符串操作,尤其是当您与很多正则表达式匹配时。

最后但同样重要的是,我正在寻找一种以性能为导向的解决方案,因为这是在 Android 客户端上完成的。

欢迎所有建议!

0 投票
1 回答
1875 浏览

java - 使用java在html页面内容中查找元素的Xpath

我是 xpath 表达式的初学者,

我有以下网址:

http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None

它包含 html 页面内容,使用以下 xpath 会在 javascript 中产生相同的 ul 元素:

  1. //*[@id="moreStock_5257711"]
  2. //*[@id="priceWrap"]/div[1]/div/a/following-sibling::ul
  3. //html/body/div/div/div/div/div/div/div/div/div/div/a/following-sibling::ul

使用这个 xpaths 我应该如何在 java 中获得相同的 ul 元素

我曾尝试使用“html 清洁器”,但它在 xpath 中失败了 -

它适用于“//* [@id ='moreStock_5257711']”这个xpath。所以下面我在html清洁器中尝试过的代码

我要求所有 xpath 都应该使用 java 中的一个包

任何人都可以建议我使用 java 获取 ul 元素的所有 xpaths 表达式。

感谢您的提前问候。

0 投票
1 回答
98 浏览

java - 将 JerichoHTML 解析器元素转换为字符串

我正在使用返回列表的 JerichoHTML 解析器(getAllElements 方法)解析 HTML 数据。但是,我需要将数据存储在 String[] 中。但是我是怎么做的,(即使通过像 (String) ((Object) theList) 这样的嵌套转换)它总是失败....知道如何解决这个问题吗?在jericho docs上找不到任何帮助...

错误如下: