问题标签 [htmltidy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
957 浏览

htmltidy - 如何阻止 HtmlTidy 转换变音符号(例如 ü 到 ü)

我们的网站通过 HtmlTidy 运行用户的输入来清理它。显然,在这样做的同时,它还会通过转换变音符号给我们的国际用户带来痛苦。是否有任何选项可以指定 HtmlTidy 不这样做?

我尝试了使用所有可能选项的 CharacterEncoding,但似乎没有任何效果。

0 投票
3 回答
943 浏览

c# - 我们如何编写 html 整洁的代码来插入结束标记?

我们如何编写 html 整洁编码仅用于在缺少结束标签的 html 文件中插入结束标签?

我正在使用 Html Agilitiy Pack 解析 html 表格信息。但是在缺少结束标签的地方,使用 html 敏捷包提取信息的性能不佳。如果我们手动编写结束标签,然后我们可以使用 html 敏捷包完美地提取信息。所以我想在它们丢失的地方插入结束标签,以便 html 敏捷包完美地提取信息。

0 投票
2 回答
6668 浏览

c# - 哪个是最好的 HTML 整洁包?HTML 敏捷包中是否有任何选项可以使 HTML 网页整洁?

我正在使用html 敏捷包来解析 html表格信息。现在有一些 html 内容缺少结束标签,并且由于缺少结束标签而来自此类页面 html 敏捷包无法正确解析信息。所以我想在缺少结束标签的地方插入结束标签,以便 html 敏捷包正确解析信息。那么要插入缺少的结束标签我应该怎么做?我应该为此编写自己的代码还是使用html tidy pack来做到这一点?

如果 html tidy pack 那么哪个是最好的html tidy pack,如果可能的话如何使用它的任何例子?如果我自己的代码比它可能是什么样的?

html 敏捷包中是否有任何选项可以使我们能够首先使 html 页面整洁然后解析网页。

0 投票
3 回答
7501 浏览

html - 如何让 HTML Tidy 在结束标签之前不放置换行符?

HTML Tidy 有一个在结束标记前添加换行符的令人讨厌的习惯。例如:

变成

如何告诉 Tidy 将结束标签与内容的末尾保持在同一行?

顺便说一句,我正在通过 Notepad++ 运行 Tidy,如果这有什么不同的话。

0 投票
1 回答
1098 浏览

jslint - CSSTidy, HTMLTidy, JSlint pre-commit hooks(Hg) - 自动化工具

我正在寻找一种在提交到存储库之前测试/验证我html的 ,css的方法。js

有没有办法自动化这个过程。理想情况下,我希望能够排除某些文件(例如 js 库)。

0 投票
3 回答
10792 浏览

java - 正确使用 JTidy 来净化 HTML

我正在尝试使用 JTidy (jtidy-r938.jar) 来清理输入的 HTML 字符串,但我似乎无法正确设置默认设置。通常,诸如“hello world”之类的字符串在整理后会变成“helloworld”。我想展示我在这里做什么,任何指针都将不胜感激:

假设这rawHtml是包含输入(真实世界)HTML 的字符串。这就是我正在做的事情:

首先,上面的代码看起来有什么根本错误吗?我似乎得到了奇怪的结果。

例如,考虑以下输入:

<p class="MsoNormal" style="text-autospace:none;"><font color="black"><span style="color:black;">???</span></font><b><font color="#7f0055"><span style="color:#7f0055;font-weight:bold;">private</span></font></b><font color="black"><span style="color:black;"> String parseDescription</span></font><font>

输出是:

<p class="MsoNormal" style="text-autospace:none;"><font color= "black"><span style="color:black;">&nbsp;&nbsp;&nbsp;</span></font> <b><font color="#7F0055"><span style= "color:#7f0055;font-weight:bold;">private</span></font></b><font color="black"><span style="color:black;">String parseDescription</span></font></p>

所以,

“公共字符串解析描述”变为“公共字符串解析描述”

提前致谢!

0 投票
4 回答
183 浏览

xhtml - 为什么 XHTML1.1 的日期 *before* XHTML1.0 ?今天首选的 XHTML 是什么?

我不清楚 XHTML - v1.0 与 v1.1 的状态。有人可以解释此时首选哪个,为什么?

W3C 的规范说 XHTML 1.1 *早于** XHTML 1.0,这对我来说非常违反直觉:

http://www.w3.org/TR/xhtml11/ - W3C 建议 2001 年 5 月 31 日

http://www.w3.org/TR/xhtml1/ - W3C 建议,2002 年 8 月 1 日更新

另外,我今天早些时候注意到,当我请求 XHTML 时,最新版本的htmltidy会发出 XHTML 1.0。嗯....尽管 XHTML 1.1 规范已有 9 年的历史,但它仍然不受主流工具的支持。这表明 XHTML 1.1 要么是完全没有必要的,要么是虚假的。


如果我今天正在创作页面,我应该使用哪一个?如果我正在构建工具怎么办 - 我应该费心支持两者吗?还是我只需要一个?

谢谢。

0 投票
1 回答
827 浏览

.net - 具有类似 HTML Tidy 的功能的托管 (.NET) 库?

是否有用于 .NET 的 HTML 清理器可以解析 HTML 并(例如)将其转换为更机器友好的格式,例如XHTML

我已经尝试过 HTML Agility Pack,但即使是相当 简单的示例 也无法正确解析。

举一个应该正确解析的 HTML 示例:

li标签不需要关闭(参见规范),标签也不P需要。换句话说,上面的样本应该被解析为:

由于目标是在各种机器上使用该库,因此需要回退到本机代码(例如HTML Tidy的包装器)是一个很大的缺点,这将需要额外的部署麻烦并牺牲平台独立性,更不用说在沙盒场景。

有什么建议么?回顾一下,我正在寻找:

  • 一个 HTML 清洁器 ala HTML Tidy
  • 必须能够处理现实世界的 HTML,而不仅仅是 XHTML,至少可以正确读取有效的 HTML 4
  • 必须能够转换为更易于处理的 XML 格式
  • 应该是一个纯托管的应用程序。
0 投票
2 回答
5252 浏览

c# - 将一个 html 字符串拆分为 N 个部分

有没有人有拆分 html 字符串(来自小型 mce 编辑器)并使用 C# 将其拆分为 N 部分的示例?

我需要在不拆分单词的情况下均匀拆分字符串。

我正在考虑拆分 html 并使用 HtmlAgilityPack 尝试修复损坏的标签。虽然我不确定如何找到分割点,但理想情况下它应该基于文本而不是 html 的purley。

有人对如何解决这个问题有任何想法吗?

更新

根据要求,这里是输入和所需输出的示例。

输入:

输出(分成 3 列时):

更新 2:

我刚刚玩过 Tidy HTML,它似乎可以很好地修复损坏的标签,所以如果我能找到一种方法来定位拆分品脱,这可能是一个不错的选择?

更新 3

在 .NET C# 中使用类似于此Truncate string on whole words的方法,我现在设法获得了构成每个部分的纯文本单词列表。因此,假设使用 Tidy HTML,我有一个有效的 html 结构,并且给出了这个单词列表,任何人都知道现在拆分它的最佳方法是什么?

更新 4

任何人都可以看到使用正则表达式以下列方式查找带有 HTML 的索引的问题:

给定纯文本字符串“sit amet, consectetur”,用正则表达式“(\s|<(.|\n)+?>)*”替换所有空格,理论上可以找到具有空格和/或任意组合的字符串标签

然后我可以使用 Tidy HTML 来修复损坏的 html 标签吗?

非常感谢

马特

0 投票
2 回答
725 浏览

c# - HTML Tidy - 添加开始标签,而不是删除结束标签?

是否可以通过以下方式配置 HTML Tidy:

给定html:

让它生成

而不是仅仅去掉结束标签?

非常感谢

马特