问题标签 [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
142 浏览

java - 在 JAVA 中删除 HTML 中的多余空间

需要执行一些 HTML 清理。

有很多多余的 br 标签的 HTML,到目前为止尝试 HtmlCleaner 和 jTidy 没有任何结果。

例子:

我想要的只是得到一个单一的<br>回报

还有其他方法可以在不逐行手动解析的情况下完成此操作吗?

0 投票
0 回答
60 浏览

java - Java HtmlCleaner 清除属性的“_”(下划线)

我正在使用http://htmlcleaner.sourceforge.net/

我的问题是 Input html 有:

输出是:

我想防止从属性中删除“_”。

0 投票
1 回答
38 浏览

htmlcleaner - 使用 htmlcleaner 清理 html 代码片段而不是整个文档

我正在使用 org.htmlcleaner

我正在添加一些用户生成的 html 并想清理它。但是当我这样做时:

cleanHTML 添加了 body 和 html 标签。是否有不添加这些的标志或属性。我在这里找不到它们http://htmlcleaner.sourceforge.net/parameters.php#transform

谢谢

0 投票
3 回答
2265 浏览

java - 如何在 Android Studio 1.1 中将 JAR (HTMLCleaner) 添加到项目中?

我花了无数个小时试图在 Android Stuio 1.1 中的项目中添加一个简单的 JAR (HTMLCleaner),但无济于事。我通过接口(文件 > 新模块 > 导入 JAR ...)将 JAR 作为模块导入,将其添加为我的应用程序模块的依赖项,甚至在我的 AndroidManifest.xml <uses-library 等中引用它... >。

当我尝试“导入 org.htmlcleaner;”时 在我的任何课程中,我都会收到“无法解决符号错误”。我已经研究并尝试了每一个排列和组合中的每一个建议。任何人都可以提供有关正确方法的其他方向或分步教程吗?

0 投票
1 回答
1875 浏览

java - 使用java在html页面内容中查找元素的Xpath

我是 xpath 表达式的初学者,

我有以下网址:

http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None

它包含 html 页面内容,使用以下 xpath 会在 javascript 中产生相同的 ul 元素:

  1. //*[@id="moreStock_5257711"]
  2. //*[@id="priceWrap"]/div[1]/div/a/following-sibling::ul
  3. //html/body/div/div/div/div/div/div/div/div/div/div/a/following-sibling::ul

使用这个 xpaths 我应该如何在 java 中获得相同的 ul 元素

我曾尝试使用“html 清洁器”,但它在 xpath 中失败了 -

它适用于“//* [@id ='moreStock_5257711']”这个xpath。所以下面我在html清洁器中尝试过的代码

我要求所有 xpath 都应该使用 java 中的一个包

任何人都可以建议我使用 java 获取 ul 元素的所有 xpaths 表达式。

感谢您的提前问候。

0 投票
1 回答
57 浏览

javascript - 将 AngularJs 脚本列表从 HTML 代码中取出

我有一长串控制器、服务、工厂、指令等文件,我不想在 HTML<script>头部正文中使用这个长长的列表。有没有办法把它们放在某个地方,让我的代码看起来更干净?

0 投票
2 回答
1187 浏览

php - 去除 HTML 和恶意代码,在 PHP 中留下标点符号和外语

一个人建议用一个衬里替换整个脚本:

但这会导致 $_GET 命令出错 - 未知变量 ID

我正在寻找的是删除所有 HTML 代码和奇怪字符的最简单脚本,用空格替换回车并留下点逗号和感叹号等标点符号。

有很多类似的问题,但似乎没有一个能真正正确地回答这个问题,并且这些脚本会删除所有字符,包括句子标点符号和外国阿拉伯字体或西班牙语。

例如,如果字符串包含 www.mygreatwebsite.com

更干净的脚本将返回看起来很奇怪的 wwwmygreatwebsitecom。

如果有人对‘嘿,这是一个很棒的网站!' 它还删除了感叹号。

我查找的所有类似问题都删除了所有字符....

我想用一个简单的正则表达式命令留下标点符号和任何外语字符,清除人们粘贴到表单中的所有内容,但留下标点符号。

自然回车会被空格代替。

有什么建议么?

0 投票
1 回答
1615 浏览

java - 在 JAVA 中使用 Xpath 解析 HTML 文件

我有一个可以读取 URL 源并保存到文件(source.html)的 Java 代码,现在从保存的页面中,我想使用 XPath 提取一些值。假设我想阅读价格 -//div [@itemprop='price'] //text ()

如何进一步执行此操作,我能否直接在保存的 HTML 页面中执行此操作,或者我应该先将其转换为 XML 文件,然后使用 XPath。我听说过 HTML 清理器/解析器,我应该在这里使用它吗?请不要指向其他网站寻求答案。如果是这样,请把我带到一个我可以进行直接和简单课程的地方。修改以下代码将非常有帮助。

0 投票
1 回答
512 浏览

java - 使用 HTMLcleaner 清理 HTML 输入

我正在使用该HTMLCleaner库编写一个 java 项目并将输出保存为 XML 文件,这是我编写的代码:

问题是运行项目后,cleaned.xml文件为空。

0 投票
1 回答
1543 浏览

python - 从 HTML 页面中删除样板内容

我想使用在这里https://github.com/miso-belica/jusText找到的 jusText 实现从 html 页面中获取干净的内容。基本上它是这样工作的:

我已经下载了我想使用这个工具解析的页面(其中一些不再在线提供),我从中提取了 html 内容。由于 jusText 似乎只处理请求的输出(这是一个响应类型对象),我想知道是否有任何自定义方法可以将响应对象的内容设置为包含我想要解析的 html 文本。