问题标签 [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3843 浏览

java - 使用 jsoup 转义不允许的标签

我正在评估jsoup的功能,它可以清理(但不删除!)非白名单标签。假设只<b>允许使用标签,因此以下输入

必须产生以下内容:

我看到 jsoup 存在以下问题/问题:

  • document.getAllElements()总是假设<html>和。是的,我可以打电话,但关键是我不知道我的来源是完整的 HTML 文档还是只是正文——我希望结果与它的形状和形式相同;<head><body>document.body().getAllElements()
  • 我该如何<script>...</script>替换&lt;script&gt;...&lt;/script&gt;?我只想用转义实体替换括号,不想更改任何属性等。Node.replaceWith这听起来有点矫枉过正。
  • 是否可以完全关闭漂亮的打印(例如插入新行等)?

或者也许我应该使用另一个框架?到目前为止,我已经查看了htmlcleaner,但给出的示例并不表明我想要的功能得到支持。

0 投票
2 回答
568 浏览

javascript - 使用 JavaScript 整洁的 HTML 输出

我有一大块 HTML。为了让它适合某个容器,我将 HTML(不仅仅是文本)裁剪为 200 个字符。显然,在这种情况下,一些标签将保持未关闭状态。除了自己编写清洁器之外,有没有办法在不涉及服务器的情况下清洁这种裁剪的片段?

我可以通过 JavaScript 使用具有公共 API 的在线服务是可以接受的。

0 投票
1 回答
819 浏览

parsing - Ant 中有没有办法(使用 Groovy?)将信息发布到 http URL,然后解析响应?

我找到了一种使用 Groovy + HTMLCleaner 在 Ant 中读取 HTML 页面的方法(请参阅:Parse HTML using with an Ant Script),但我无法找到一种方法来首先将一些数据发布到 URL,然后得到响应和能够用 HTMLCleaner (或类似的东西)解析它。这可能吗?

0 投票
2 回答
2215 浏览

grails - 如何在 groovy 中找到具有特定属性值的节点的文本?

我正在使用 XMLSlurper。我的代码在下面(但不起作用)。问题是当它碰到一个没有属性“id”的节点时它会失败。我该如何解释?

我只需要考虑没有“id”属性的节点,这样它就不会失败。我怎么做?

0 投票
2 回答
1862 浏览

java - HTMLCLEANER 处理西班牙语字符

我正在使用 HtmlCleaner 库来解析/转换 Java 中的 HTML 文件。

似乎无法处理像“ÁáÉéÍíÑñÓóÚúÜü”这样的西班牙语字符

我可以在 HtmlCleaner 中设置任何属性来处理这个或任何其他解决方案吗?这是我用来调用它的代码:

0 投票
1 回答
509 浏览

html-parsing - 使用 htmlcleaner 解析 html

我想使用 html 清洁器解析这种类型的 html。

在其中我只想获得 href ( href="/watch?v=NZiEqhrIL_k" )值。我怎样才能实现它。提前致谢。

0 投票
1 回答
1382 浏览

java - Java HtmlCleaner:不处理扩展的 ascii 字符

我正在使用 HTMLCleaner 清理一个 HTML 文件,该文件包含“€”(ascii 十进制 128)、“TM”(ascii 十进制 153)等字符。也就是说,来自 ASCII 扩展表的字符

HTMLCleaner 无法处理这些字符并将它们替换为字符“?” (ASCII 十进制 63)。

为了处理这些字符,我可以在 HTMLCleaner 中设置任何标志吗?

提前致谢。

编辑: 变量“编码”是“iso-8859-1”,就像源文件编码一样。

我刚刚想通了。该行:

应替换为:

其中 'encoding' 是源 url 的字符集的字符串表示形式。

谢谢!

0 投票
0 回答
2041 浏览

java - 使用 htmlcleaner 解析

我开发了一种方法,允许您使用 htmlcleaner 从特定类中提取项目,现在我想知道......

如何使用 htmlcleaner 提取 html 中的正文及其所有元素?

0 投票
1 回答
261 浏览

java - htmlcleaner 只抓取第一个 body 标签和子节点

我正在使用 java htmlcleaner,我希望只抓取第一个 body 标记及其所有子标记。我想省略 html、head、doctype 标签。

我见过nodeByXpath,但它似乎只适用于ant而不适用于java。有谁知道如何在java中做到这一点?

0 投票
1 回答
10667 浏览

php - 使用 PHP 删除 MS Word “HTML”

可能重复:
清理 Word HTML 的最佳免费方法是什么?
PHP 清理粘贴的 Microsoft 输入

我允许客户在富文本编辑器中输入注释,并且最近才升级到 ckEditor 3x,它默认去除 MS 单词类、样式和注释(当用户粘贴到编辑器对象时)。所以继续前进,我已经准备好了。

我最近需要清理 5 年的笔记,其中一些笔记嵌入了 MS Word 生成的 HTML。我需要遍历这段文本并清理它。

我不需要删除所有 span 标签,只需要删除那些标识为 Microsoft 编写的标签。

我试过使用 HTMLCleaner,但它没有删除 MS 生成的 HTML。 http://word2cleanhtml.com完全符合我的要求,但是开发人员目前不提供 API 供公众使用(截至 2012 年 7 月 9 日)。

在过去的几周里,我断断续续地寻找这样的课程,但运气不佳。你们中有人找到了想要分享的有用课程吗?