问题标签 [jericho-html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
493 浏览

java - 如何用 Jericho 解析两条评论?

我希望能够使用 Jericho 解析两个评论标签之间的任何和所有文本。例如,

会回来

这有可能吗?

0 投票
1 回答
807 浏览

java - java - 如何获取java html解析器中嵌套标签之间的内容?

例如。考虑 html
<html>
<body>
<p> Hello <b> world </b> </p>
</body>
</html>
我如何在解析时获取内容“Hello”?请帮我。我在java中需要它。我知道很少有像 jehrico 这样的 html 解析器。

0 投票
2 回答
1482 浏览

java - 如何使用 Jericho 解析没有嵌套 html 元素的文本?

使用 Jericho,我需要解析如下内容:

我想解析“Spoon bows”,但我<div>使用以下代码获取标签中的全部内容:

0 投票
1 回答
359 浏览

java - 使用 jericho html 解析器解析页面中的指定文本

从页面检索指定文本时出现问题。我正在使用的示例是专利受让人摘要

如果您访问该站点,您会看到有一个“Total: 82”(这是 criterium SASA 的命中数)。我需要得到这个号码。我使用 jericho html 解析器,但我找不到任何功能。

有人可以帮我解决这个问题吗?我真的需要在页面上获得这个数字。

在此先感谢-莎莎

0 投票
0 回答
169 浏览

java - 尽管读取了 HTML 解析,但它们不返回任何数据

我遇到以下问题。我编写了一个读取已知结构的 html 文件的 java 片段(见下文)。我将其拆分为元素并使用 jericho 解析器获取它们的文本。然后,当我打印文本以确保检索正确时,我将每个元素添加到 ArrayList 中(显然检索是正确的)。您可以从 html 结构中猜到​​,如果 ArrayList 的元素 i 是 Email ,那么元素 i+1 就是 value。我认为这是一个范围问题,但无法弄清楚。你能帮我吗?我正在使用以下代码来获取值:

HTML:

0 投票
2 回答
462 浏览

html - 从 GWT 页面中提取 HTML 内容

我想解析用 GWT 编写的 HTML 页面的内容。我尝试使用 Jericho HTML 内容解析器对其进行解析,但问题是页面源没​​有内容。在对 GWT 页面进行了一些研究之后,我了解到 GWT 页面是用 JAVA 编写的,GWT 编译器从 java 代码创建了一个复杂的 js 页面结构,以在浏览器上显示 HTML 内容。

有没有办法可以解析这些类型的页面?

0 投票
1 回答
401 浏览

java - Java Jericho 超链接解析

我试图找出一种方法来获取网页中的所有超链接-除非它们位于锚标记()中。

为此,我正在使用 Jericho 解析器。

我最初的方法是区分 List<Element> elementList = source.getAllElements();and getAllElements(HTMLElementName.A),但其他元素也可能包含其中的锚链接,所以我认为这不是正确的方法。

0 投票
1 回答
1246 浏览

java - 如何使用 jericho html 解析器从网站获取数据?

我在 java 中使用 jericho html 解析器。我想从网站获取数据。在网站html内容是这样的......

我想获取内容 1、内容 2、内容 3、内容 4。如何获取这个?

我正在使用此代码

0 投票
2 回答
382 浏览

java - 我应该使用什么 html 解析器?

我正在开发一个需要解析 HTML 文档的产品。我寻找 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML,因为我需要使用石英在多线程环境中运行此进程?

如果一次有 10 个线程在内存中运行,那么我需要一个消耗更少内存的 API。在杰里科,我在某处读到它是基于文本的搜索 API,并且消耗的内存更少。我对吗?或者我应该去其他的,为什么?

0 投票
1 回答
1391 浏览

java - 使用 jSoup 解析最里面的 html 标签

这是我的代码。

如何解析逐个标签返回的 HTML。循环没有覆盖最里面的标签。

这是一个格式良好的html代码。将所有标签解析到最里面。

我想将标签之间的所有 html 作为我在 html 代码中显示的 html 层次结构。所以我喜欢按照父子顺序依次获取所有标签。