问题标签 [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 jsoup 转义不允许的标签
我正在评估jsoup的功能,它可以清理(但不删除!)非白名单标签。假设只<b>
允许使用标签,因此以下输入
必须产生以下内容:
我看到 jsoup 存在以下问题/问题:
document.getAllElements()
总是假设<html>
和。是的,我可以打电话,但关键是我不知道我的来源是完整的 HTML 文档还是只是正文——我希望结果与它的形状和形式相同;<head>
<body>
document.body().getAllElements()
- 我该如何
<script>...</script>
替换<script>...</script>
?我只想用转义实体替换括号,不想更改任何属性等。Node.replaceWith
这听起来有点矫枉过正。 - 是否可以完全关闭漂亮的打印(例如插入新行等)?
或者也许我应该使用另一个框架?到目前为止,我已经查看了htmlcleaner,但给出的示例并不表明我想要的功能得到支持。
javascript - 使用 JavaScript 整洁的 HTML 输出
我有一大块 HTML。为了让它适合某个容器,我将 HTML(不仅仅是文本)裁剪为 200 个字符。显然,在这种情况下,一些标签将保持未关闭状态。除了自己编写清洁器之外,有没有办法在不涉及服务器的情况下清洁这种裁剪的片段?
我可以通过 JavaScript 使用具有公共 API 的在线服务是可以接受的。
parsing - Ant 中有没有办法(使用 Groovy?)将信息发布到 http URL,然后解析响应?
我找到了一种使用 Groovy + HTMLCleaner 在 Ant 中读取 HTML 页面的方法(请参阅:Parse HTML using with an Ant Script),但我无法找到一种方法来首先将一些数据发布到 URL,然后得到响应和能够用 HTMLCleaner (或类似的东西)解析它。这可能吗?
grails - 如何在 groovy 中找到具有特定属性值的节点的文本?
我正在使用 XMLSlurper。我的代码在下面(但不起作用)。问题是当它碰到一个没有属性“id”的节点时它会失败。我该如何解释?
我只需要考虑没有“id”属性的节点,这样它就不会失败。我怎么做?
java - HTMLCLEANER 处理西班牙语字符
我正在使用 HtmlCleaner 库来解析/转换 Java 中的 HTML 文件。
似乎无法处理像“ÁáÉéÍíÑñÓóÚúÜü”这样的西班牙语字符
我可以在 HtmlCleaner 中设置任何属性来处理这个或任何其他解决方案吗?这是我用来调用它的代码:
html-parsing - 使用 htmlcleaner 解析 html
我想使用 html 清洁器解析这种类型的 html。
在其中我只想获得 href ( href="/watch?v=NZiEqhrIL_k" )值。我怎样才能实现它。提前致谢。
java - Java HtmlCleaner:不处理扩展的 ascii 字符
我正在使用 HTMLCleaner 清理一个 HTML 文件,该文件包含“€”(ascii 十进制 128)、“TM”(ascii 十进制 153)等字符。也就是说,来自 ASCII 扩展表的字符。
HTMLCleaner 无法处理这些字符并将它们替换为字符“?” (ASCII 十进制 63)。
为了处理这些字符,我可以在 HTMLCleaner 中设置任何标志吗?
提前致谢。
编辑: 变量“编码”是“iso-8859-1”,就像源文件编码一样。
我刚刚想通了。该行:
应替换为:
其中 'encoding' 是源 url 的字符集的字符串表示形式。
谢谢!
java - 使用 htmlcleaner 解析
我开发了一种方法,允许您使用 htmlcleaner 从特定类中提取项目,现在我想知道......
如何使用 htmlcleaner 提取 html 中的正文及其所有元素?
java - htmlcleaner 只抓取第一个 body 标签和子节点
我正在使用 java htmlcleaner,我希望只抓取第一个 body 标记及其所有子标记。我想省略 html、head、doctype 标签。
我见过nodeByXpath,但它似乎只适用于ant而不适用于java。有谁知道如何在java中做到这一点?
php - 使用 PHP 删除 MS Word “HTML”
我允许客户在富文本编辑器中输入注释,并且最近才升级到 ckEditor 3x,它默认去除 MS 单词类、样式和注释(当用户粘贴到编辑器对象时)。所以继续前进,我已经准备好了。
我最近需要清理 5 年的笔记,其中一些笔记嵌入了 MS Word 生成的 HTML。我需要遍历这段文本并清理它。
我不需要删除所有 span 标签,只需要删除那些标识为 Microsoft 编写的标签。
我试过使用 HTMLCleaner,但它没有删除 MS 生成的 HTML。 http://word2cleanhtml.com完全符合我的要求,但是开发人员目前不提供 API 供公众使用(截至 2012 年 7 月 9 日)。
在过去的几周里,我断断续续地寻找这样的课程,但运气不佳。你们中有人找到了想要分享的有用课程吗?