问题标签 [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 在android中使用htmlClener解析没有名称或id,只有类属性的“div”
我正在尝试解析具有唯一类属性的 div 元素的 HTML 网页。我需要从中提取信息。它是多个 div 元素,所以我需要遍历 DOM。但我无法识别 div 元素。
java - 用于访问特定选项卡内容(如果存在)的通用 xpath
下面是两个具有“功能、应用和优势”标签的网页,这里我只想提取“功能”标签的内容。一个网页在第一个选项卡中具有“功能”,而其他网页具有“好处”而不是“功能”选项卡。
http://www.eaton.com/Eaton/ProductsServices/Hydraulics/Accumulators/PCT_256248 http://www.eaton.com/Eaton/ProductsServices/Vehicle/Superchargers/RSeries/index.htm#tabs-2
尝试过的方法: 通过使用“下面的代码”和 xpath("//a[span='Features']/../../../div/div") 我能够获取所有选项卡的内容出现在网页中。但是,我的问题是我正在寻找通用的“xpath”,它应该只在网页中获取“功能”的内容,如果“功能”选项卡不存在,它不应该显示任何内容。
java - 如何从 java 中的 htmlparser 生成的已解析标记节点构建新的 html?
我想编写一个将.html转换为pdf的java代码。我使用adobe的itext api进行html到pdf的转换。但是当我将错误的html文件作为输入时,这种转换失败。(Html标签没有正确结束)因此我使用了Htmlcleaner清理坏 html 但无法获得可以重建新 html 的代码的解析器。有人知道如何从解析的 html 标签节点构建新的 html 吗?
java - 无法使用 HTMLCleaner 解析 HTML
我尝试按照此链接解析 html;
我想阅读这段代码中的一些内容
但我无法阅读其中的任何内容。
我的代码。我只是尝试阅读标签 div 中的所有内容。
java - HtmlCleaner XPath:获取没有子节点的节点内容
我正在使用 HtmlCleaner 库来解析 html 文件并通过其 XPath 函数提取一些数据。这工作得很好,但我找不到一种方法来获取节点的文本内容(没有子节点的内容)。正如许多基本的 XPath 文档中所述, text() 应该给出一个节点的内容而不包含其子节点的内容,但 htmlcleaner 集成似乎没有遵循这一点。有没有办法用 htmlcleaners XPath 做到这一点?
UPADTE:这是一个例子:
我的 html 是这个页面,http://www.imdb.com/title/tt0499549/? ref_= nv_sr_1 这里是 html 的片段:
这是我的 XPath(在这种情况下 div[7] 采用 .txt-block div)
这导致“预算:237,000,000 美元(估计)”,但我只想要“237,000,000 美元”而不是 h4 的内容而不是跨度。
java - 如何使用 JSoup 或 HTMLCleaner 缩短 HTML 代码
今天是个好日子。我正在尝试将 HTML 代码保存在数据库中,并且我正在使用SHEF(Swing HTML Editor Framework),但我遇到了一个大问题。通常,生成的 HTML 是这样的:
我想“清理” html 代码并使结果看起来像这样:
我尝试使用HTMLCleaner和JSoup,但我还没有成功。我只能让 JSoup 工作这样
变成
这是我使用的 JSoup 代码:
有什么方法可以使生成的 HTML 代码更短?谢谢!
java - Xpath如何获取带有html标签的文本
像这样。我想使用 XPath 来获取带有 img 标签的文本
javascript - 如何在 html canvas AI 中更改背景时间
在此处输入图片描述这是 AI 游戏项目的图片。
我的问题是这个。在这个项目中有两次。一个是白天和晚上。
该项目成功运行。但我需要更改白天和夜间的颜色而不是更改图片。我有白天和晚上的图片我将如何插入我尝试了很多方法但我无法帮助别人做到这一点
htmlcleaner - 如何在 Java 中设置 `invalidAttributeNamePrefix` 值?
假设我正在使用HtmlCleaner ( v2.18 ) 清理一些 html,并且我想将属性invalidAttributeNamePrefix
(请参阅Cleaner 参数部分)设置为某个值,即: data-
.
这样my-custom-attr="my-value"
,HTML 中的属性将被转换为data-my-custom-attr="my-value"
.
我怎样才能做到这一点?我找不到Java 用法的任何示例。
您可以将这段代码作为参考:
java - How to parse html with xpath?
I ran into a few questions on StackOverflow that asked about parsing html with xpath using Java.
This is the best answer I found so far here.
But it looks like DomSerializer
is no longer available in Java 11.
How can I use DomSerializer
in Java 11 ?