问题标签 [jericho-html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何用 Jericho 解析两条评论?
我希望能够使用 Jericho 解析两个评论标签之间的任何和所有文本。例如,
会回来
这有可能吗?
java - java - 如何获取java html解析器中嵌套标签之间的内容?
例如。考虑 html
<html>
<body>
<p> Hello <b> world </b> </p>
</body>
</html>
我如何在解析时获取内容“Hello”?请帮我。我在java中需要它。我知道很少有像 jehrico 这样的 html 解析器。
java - 如何使用 Jericho 解析没有嵌套 html 元素的文本?
使用 Jericho,我需要解析如下内容:
我想解析“Spoon bows”,但我<div>
使用以下代码获取标签中的全部内容:
java - 使用 jericho html 解析器解析页面中的指定文本
从页面检索指定文本时出现问题。我正在使用的示例是专利受让人摘要
如果您访问该站点,您会看到有一个“Total: 82”(这是 criterium SASA 的命中数)。我需要得到这个号码。我使用 jericho html 解析器,但我找不到任何功能。
有人可以帮我解决这个问题吗?我真的需要在页面上获得这个数字。
在此先感谢-莎莎
java - 尽管读取了 HTML 解析,但它们不返回任何数据
我遇到以下问题。我编写了一个读取已知结构的 html 文件的 java 片段(见下文)。我将其拆分为元素并使用 jericho 解析器获取它们的文本。然后,当我打印文本以确保检索正确时,我将每个元素添加到 ArrayList 中(显然检索是正确的)。您可以从 html 结构中猜到,如果 ArrayList 的元素 i 是 Email ,那么元素 i+1 就是 value。我认为这是一个范围问题,但无法弄清楚。你能帮我吗?我正在使用以下代码来获取值:
HTML:
html - 从 GWT 页面中提取 HTML 内容
我想解析用 GWT 编写的 HTML 页面的内容。我尝试使用 Jericho HTML 内容解析器对其进行解析,但问题是页面源没有内容。在对 GWT 页面进行了一些研究之后,我了解到 GWT 页面是用 JAVA 编写的,GWT 编译器从 java 代码创建了一个复杂的 js 页面结构,以在浏览器上显示 HTML 内容。
有没有办法可以解析这些类型的页面?
java - Java Jericho 超链接解析
我试图找出一种方法来获取网页中的所有超链接-除非它们位于锚标记()中。
为此,我正在使用 Jericho 解析器。
我最初的方法是区分
List<Element> elementList = source.getAllElements();
and
getAllElements(HTMLElementName.A)
,但其他元素也可能包含其中的锚链接,所以我认为这不是正确的方法。
java - 如何使用 jericho html 解析器从网站获取数据?
我在 java 中使用 jericho html 解析器。我想从网站获取数据。在网站html内容是这样的......
我想获取内容 1、内容 2、内容 3、内容 4。如何获取这个?
我正在使用此代码
java - 我应该使用什么 html 解析器?
我正在开发一个需要解析 HTML 文档的产品。我寻找 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML,因为我需要使用石英在多线程环境中运行此进程?
如果一次有 10 个线程在内存中运行,那么我需要一个消耗更少内存的 API。在杰里科,我在某处读到它是基于文本的搜索 API,并且消耗的内存更少。我对吗?或者我应该去其他的,为什么?
java - 使用 jSoup 解析最里面的 html 标签
这是我的代码。
如何解析逐个标签返回的 HTML。循环没有覆盖最里面的标签。
这是一个格式良好的html代码。将所有标签解析到最里面。
我想将标签之间的所有 html 作为我在 html 代码中显示的 html 层次结构。所以我喜欢按照父子顺序依次获取所有标签。