问题标签 [jericho-html-parser]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

50 问题

0 投票

1 回答

434 浏览

java - 使用jericho在java中验证html标签

使用jericho api，我可以验证给定的 html 标签<input type="test" .....>吗？我无法在 jericho 中找到可以这样做的 api。有没有一种方法可以让我jericho只使用它？我不想整理或清理 html 标签。我只是想检查它的有效性。

2014-01-23T11:07:39.273

0 投票

1 回答

597 浏览

java - 如何 使用jericho从嵌套的html元素中获取文本？

java html parsing jericho-html-parser

2014-02-20T09:55:03.400

0 投票

1 回答

107 浏览

java - 想要访问属性值

我需要有关 html 解析器的帮助我想获取标记“a”的第一个属性“href”值请解决我的问题。我想从代码http://myneta.info/gujarat2012/candidate.php 获取此链接？ Candidate_id=1591，我正在附上快照，请查看并提供一些解决方案，我已经尝试过此代码，但不适用于我 -

这是图像

java html dom html-parsing jericho-html-parser

2014-04-01T07:33:13.610

0 投票

1 回答

155 浏览

jericho-html-parser - 如何使用 jericho html 解析器从 html 或 jsp 页面获取评论

如何从 html 和 jsp 页面获取类似//Comments&的评论。/*Comments*/

我有评论，，，<%--Comments--%>以<%Comments%>下列方式使用 jericho html 解析器。

但我无法找到//& /*Comments*/。

jericho-html-parser

2014-05-14T16:13:19.880

0 投票

2 回答

2316 浏览

java - 使用 Java 从 HTML 中提取文本，包括源代码行号和代码

如何使用 Java 从 HTML 中提取文本的问题已被查看和重复了无数次：从 HTML Java 中提取文本

感谢在 Stackoverflow 上找到的答案，我目前的情况是我正在使用JSoup

和这段或代码：

现在我还想显示手头的 textNode 来自的行号和原始 html 源代码。我怀疑 JSoup 可以做到这一点（例如参见）

并尝试解决方法：

无法可靠地找到原始 html。所以我想我可能不得不切换到另一个库或方法。Jericho-html：是否可以参考源文件中的位置提取文本？正如上面的链接也指出的那样，有一个答案说“杰里科可以做到”。但是缺少指向实际工作代码的指针。

在杰里科，我做到了：

这已经很好了，因为它会给你这样的输出：

但现在的后续问题是 TextExtractor 递归输出所有子节点的整个文本，以便文本多次显示。

什么是过滤以及上述 JSoup 解决方案（请注意文本元素的正确顺序）但显示源代码行的有效解决方案，如上述 Jericho 代码片段一样？

java html html-parsing jsoup jericho-html-parser

2014-09-26T09:30:52.050

0 投票

0 回答

80 浏览

jericho-html-parser - 如何使用 Jericho HTML Parser 添加隐藏的输入标签？

对于 HTML 页面中的每个表单，我想在它通过 JEE 过滤器时添加一个额外的隐藏输入标记。例如，对于给定的 HTML 页面：

最终结果应该与此类似：

由于 HTML 可能格式不正确，我认为 Jericho 将是首选的 HTML 解析器。在浏览了几次网页之后，我找到了更改现有标签值的方法，但是如何添加额外的标签让我无法理解。

提前感谢您的帮助。

jericho-html-parser

2014-10-11T19:25:11.370

0 投票

1 回答

355 浏览

java - 如何从网站检索所有用户评论？

我想要来自这个网站的所有用户评论：http: //www.consumercomplaints.in/?search=chevrolet

问题是评论只是部分显示，要查看完整的评论，我必须单击它上面的标题，并且必须对所有评论重复此过程。

另一个问题是评论页面很多。

因此，我想将所有完整评论存储在上述指定站点的 excel 表中。这可能吗？我正在考虑将 crawler4j 和 jericho 与 Eclipse 一起使用。

我的 visitPage 方法代码：@Override public void visit(Page page) {
String url = page.getWebURL().getURL(); System.out.println("网址：" + url);

提前致谢。任何帮助，将不胜感激。

java comments excel-2013 crawler4j jericho-html-parser

2015-01-07T11:44:15.177

0 投票

0 回答

878 浏览

java - Java/Android HTML 自定义标签解析器

我试图找出一种方法来解析带有自定义标签的 html 文件，格式如下：

这是我正在使用的文件的示例：

我想要（在理想的世界中）返回的是元素列表）：

上面列表中的元素包含：

文本：

自定义标签：

关联：

文本：

我试过的：

Jsoup
Jsoup 很棒，它非常适合 HTML。问题是我无法定义带有打开“[”和关闭“]”的自定义标签。如我错了请纠正我？
Jericho
和 Jsoup 一样，Jericho 工作得很好……除了定义自定义标签。您需要使用“<”。
Java Regex
这是我真的不想选择的选项。它不可靠，并且存在很多脆弱的字符串操作，尤其是当您与很多正则表达式匹配时。

最后但同样重要的是，我正在寻找一种以性能为导向的解决方案，因为这是在 Android 客户端上完成的。

欢迎所有建议！

java android html-parsing jsoup jericho-html-parser

2015-02-07T01:28:36.930

0 投票

1 回答

1875 浏览

java - 使用java在html页面内容中查找元素的Xpath

我是 xpath 表达式的初学者，

我有以下网址：

http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None

它包含 html 页面内容，使用以下 xpath 会在 javascript 中产生相同的 ul 元素：

//*[@id="moreStock_5257711"]
//*[@id="priceWrap"]/div[1]/div/a/following-sibling::ul
//html/body/div/div/div/div/div/div/div/div/div/div/a/following-sibling::ul

使用这个 xpaths 我应该如何在 java 中获得相同的 ul 元素

我曾尝试使用“html 清洁器”，但它在 xpath 中失败了 -

它适用于“//* [@id ='moreStock_5257711']”这个xpath。所以下面我在html清洁器中尝试过的代码

我要求所有 xpath 都应该使用 java 中的一个包

任何人都可以建议我使用 java 获取 ul 元素的所有 xpaths 表达式。

感谢您的提前问候。

java xpath html-parser htmlcleaner jericho-html-parser

2015-02-25T07:41:25.297

0 投票

1 回答

98 浏览

java - 将 JerichoHTML 解析器元素转换为字符串

我正在使用返回列表的 JerichoHTML 解析器（getAllElements 方法）解析 HTML 数据。但是，我需要将数据存储在 String[] 中。但是我是怎么做的，（即使通过像 (String) ((Object) theList) 这样的嵌套转换）它总是失败....知道如何解决这个问题吗？在jericho docs上找不到任何帮助...

错误如下：

java casting jericho-html-parser

2015-03-20T15:37:39.013

1 2 3 4 5 6 7 8 9 10

问题标签 [jericho-html-parser]

Reference