问题标签 [htmlcleaner]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

94 问题

0 投票

1 回答

3843 浏览

java - 使用 jsoup 转义不允许的标签

我正在评估jsoup的功能，它可以清理（但不删除！）非白名单标签。假设只<b>允许使用标签，因此以下输入

必须产生以下内容：

我看到 jsoup 存在以下问题/问题：

document.getAllElements()总是假设<html>和。是的，我可以打电话，但关键是我不知道我的来源是完整的 HTML 文档还是只是正文——我希望结果与它的形状和形式相同；<head><body>document.body().getAllElements()
我该如何<script>...</script>替换<script>...</script>？我只想用转义实体替换括号，不想更改任何属性等。Node.replaceWith这听起来有点矫枉过正。
是否可以完全关闭漂亮的打印（例如插入新行等）？

或者也许我应该使用另一个框架？到目前为止，我已经查看了htmlcleaner，但给出的示例并不表明我想要的功能得到支持。

java html jsoup xss htmlcleaner

2012-02-20T16:24:13.147

0 投票

2 回答

568 浏览

javascript - 使用 JavaScript 整洁的 HTML 输出

我有一大块 HTML。为了让它适合某个容器，我将 HTML（不仅仅是文本）裁剪为 200 个字符。显然，在这种情况下，一些标签将保持未关闭状态。除了自己编写清洁器之外，有没有办法在不涉及服务器的情况下清洁这种裁剪的片段？

我可以通过 JavaScript 使用具有公共 API 的在线服务是可以接受的。

javascript html tidy htmlcleaner

2012-02-20T20:42:40.343

0 投票

1 回答

819 浏览

parsing - Ant 中有没有办法（使用 Groovy？）将信息发布到 http URL，然后解析响应？

我找到了一种使用 Groovy + HTMLCleaner 在 Ant 中读取 HTML 页面的方法（请参阅：Parse HTML using with an Ant Script），但我无法找到一种方法来首先将一些数据发布到 URL，然后得到响应和能够用 HTMLCleaner （或类似的东西）解析它。这可能吗？

parsing post ant groovy htmlcleaner

2012-03-14T19:14:49.767

0 投票

2 回答

2215 浏览

grails - 如何在 groovy 中找到具有特定属性值的节点的文本？

我正在使用 XMLSlurper。我的代码在下面（但不起作用）。问题是当它碰到一个没有属性“id”的节点时它会失败。我该如何解释？

我只需要考虑没有“id”属性的节点，这样它就不会失败。我怎么做？

grails groovy closures xmlslurper htmlcleaner

2012-03-14T20:30:42.667

0 投票

2 回答

1862 浏览

java - HTMLCLEANER 处理西班牙语字符

我正在使用 HtmlCleaner 库来解析/转换 Java 中的 HTML 文件。

似乎无法处理像“ÁáÉéÍíÑñÓóÚúÜü”这样的西班牙语字符

我可以在 HtmlCleaner 中设置任何属性来处理这个或任何其他解决方案吗？这是我用来调用它的代码：

java html htmlcleaner

2012-04-24T14:07:17.620

0 投票

1 回答

509 浏览

html-parsing - 使用 htmlcleaner 解析 html

我想使用 html 清洁器解析这种类型的 html。

在其中我只想获得 href （ href="/watch?v=NZiEqhrIL_k" ）值。我怎样才能实现它。提前致谢。

html-parsing htmlcleaner

2012-04-27T13:18:08.307

0 投票

1 回答

1382 浏览

java - Java HtmlCleaner：不处理扩展的 ascii 字符

我正在使用 HTMLCleaner 清理一个 HTML 文件，该文件包含“€”（ascii 十进制 128）、“TM”（ascii 十进制 153）等字符。也就是说，来自 ASCII 扩展表的字符。

HTMLCleaner 无法处理这些字符并将它们替换为字符“？” （ASCII 十进制 63）。

为了处理这些字符，我可以在 HTMLCleaner 中设置任何标志吗？

提前致谢。

编辑： 变量“编码”是“iso-8859-1”，就像源文件编码一样。

我刚刚想通了。该行：

应替换为：

其中 'encoding' 是源 url 的字符集的字符串表示形式。

谢谢！

java ascii extended-ascii htmlcleaner

2012-05-16T16:38:29.373

0 投票

0 回答

2041 浏览

java - 使用 htmlcleaner 解析

我开发了一种方法，允许您使用 htmlcleaner 从特定类中提取项目，现在我想知道......

如何使用 htmlcleaner 提取 html 中的正文及其所有元素？

java htmlcleaner

2012-05-30T15:43:21.530

0 投票

1 回答

261 浏览

java - htmlcleaner 只抓取第一个 body 标签和子节点

我正在使用 java htmlcleaner，我希望只抓取第一个 body 标记及其所有子标记。我想省略 html、head、doctype 标签。

我见过nodeByXpath，但它似乎只适用于ant而不适用于java。有谁知道如何在java中做到这一点？

java htmlcleaner

2012-06-07T02:01:59.630

0 投票

1 回答

10667 浏览

php - 使用 PHP 删除 MS Word “HTML”

可能重复：
清理 Word HTML 的最佳免费方法是什么？
PHP 清理粘贴的 Microsoft 输入

我允许客户在富文本编辑器中输入注释，并且最近才升级到 ckEditor 3x，它默认去除 MS 单词类、样式和注释（当用户粘贴到编辑器对象时）。所以继续前进，我已经准备好了。

我最近需要清理 5 年的笔记，其中一些笔记嵌入了 MS Word 生成的 HTML。我需要遍历这段文本并清理它。

我不需要删除所有 span 标签，只需要删除那些标识为 Microsoft 编写的标签。

我试过使用 HTMLCleaner，但它没有删除 MS 生成的 HTML。 http://word2cleanhtml.com完全符合我的要求，但是开发人员目前不提供 API 供公众使用（截至 2012 年 7 月 9 日）。

在过去的几周里，我断断续续地寻找这样的课程，但运气不佳。你们中有人找到了想要分享的有用课程吗？

php html ms-word htmlcleaner

2012-07-09T17:42:15.507

1 2 3 4 5 6 7 8 9 10