问题标签 [htmltidy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
93337 浏览

notepad++ - Notepad++ htmltidy - 无法找到 libtidy.dll

我在一台相对较新的 Windows 7 机器上,在 Notepad++ 中 TextFX HTMLTidy 不起作用。它说“无法在系统路径或 C:\program files (x86)\Notepad++\plugins\Config\tidy\libTidy.dll 中找到 libTidy.dll”。一些链接建议将文件移动到该位置,但我从哪里得到它们?啊,为什么我总是觉得 Notepad++ 插件如此令人沮丧!

我在 Windows 7 x64 上使用 Notepad++ 5.9.3。

0 投票
2 回答
667 浏览

html - 带有 php 代码的 Html Tidy,之后 XHTML 不是有效的 XML

我正在使用http://tidy.sourceforge.net/将 HTML 转换为 XHTML,我想稍后使用 XSLT 转换这个 XHTML。

不幸的是,我尝试解析一个 techcrunch 站点(仅用于测试)。techcrunch 站点包含 php 代码,并且 HTML tidy 使用此 php 代码生成一个无效的 XML 文件。

简化输入文件dirty.htm

和我的带有 HTML Tidy 的输出文件cleaned.htm

主要问题是<其中onclick不允许作为 XML 属性!XSLTProc 拒绝打开这个无效的 XML。

我的 HTML 整洁选项tidyconfig.cfg

HTML 整洁的命令行:

我错过了任何 HTML Tidy 选项吗?所有整洁的选项:http ://tidy.sourceforge.net/docs/quickref.html

0 投票
6 回答
25451 浏览

html - 使用 HTML Tidy 来缩进 HTML 代码?

是否可以使用 HTML Tidy 来缩进 HTML 代码?

示例代码

期望的结果

如果我使用标准命令运行它,tidy -f errs.txt -m index.html那么我会得到这个

我怎样才能省略所有额外的东西并真正让它缩进代码?

如果这不是它应该支持的功能,请原谅我,我在寻找什么库/工具?

0 投票
1 回答
1010 浏览

c++ - 在 Visual C++ 2010 Windows 窗体项目中使用 HTML Tidy

我正在使用 VC++ 2010 Express,并尝试包含 HTML Tidy 以对 HTML 代码字符串执行清理。我想要做的是将HTML作为字符串处理(不是来自文件)并将处理后的清理HTML保存到字符串(不是文件)。该项目是一个 C++ Windows 窗体项目,编译器是 /CLR。

我曾多次尝试以各种方式将 Tidy 附加到我的项目中。我每次尝试都失败了,我只是不知道从这里去哪里。最有希望的是一个名为 TidyManaged 的​​ .NET 包装器,但我找不到任何文档来解释如何将它与 C++ 一起使用(它似乎是为 C# 设计的)。各种 C++ 包装器根本不适合我。似乎文档非常缺乏如何使它们工作。

此外,我准备接受一个根本不使用 tidy 的解决方案,而是使用其他一些等效的 HTML 清理工具。我担心 Tidy 的时代(2000 年 8 月)以及它是否对当今较新的 XHTML 标准仍然有效。

此外,如果可能的话,我愿意将 C 库直接合并到我的代码中,而不依赖于 DLL,但我不知道如何使这项工作或即使它可以工作。

任何有关如何解决此问题的建议将不胜感激,请记住这是我们在这里讨论的 HTML(通常是格式错误的 HTML 和 XHTML)而不是 XML。

提前致谢!

PS - 我是 C++ 新手:/

0 投票
2 回答
6157 浏览

notepad++ - Notepad++ HTML Tidy Unknown Exception Windows 7 x64

当我尝试从 NotePad++ (v5.9.3) 中的 TextFX 菜单运行 HTML Tidy 时,出现以下错误:

未找到配置文件“C:\Program Files(x86)\Notepad++\plugins\Config\tidy\HTMLTIDY.CFG”!我会选择我想要的任何默认值!

单击确定后,我得到:

每当我在尝试运行 HTMLTidy 的文档中时,“未知异常”和我的光标都会变为沙漏。

该文件存在于指定的位置,我尝试更改文件的权限,以便每个人都可以完全控制,但这没有任何区别。

0 投票
2 回答
979 浏览

php - 如何保持

与 XPATH?

我使用 XPATH 删除不整洁的 HTML 标签,

将删除像这些可怕的输入,

但它也消除了img tag我想保留的打击,

如何img tag使用 XPATH 保留输入?

0 投票
2 回答
1409 浏览

asp.net - 使用带有 ASP.NET 标签的 HTML Tidy

我发现了一个非常好的工具来清理我继承的项目中的一堆 HTML:

基本上,我可以粘贴我的 HTML,单击Tidy按钮,它会清理所有内容。

但是,我的项目是一个ASP.NET网站,而 HTML Tidy 不知道asp标签是什么。

因此,默认情况下,它只是将其删除。

哎哟! 突然间,没有任何效果,因为我无法控制我的表单。

查看帮助并进入高级功能,我将输出格式设置为Side by Side Diff,这将显示asp标签,但现在这两个部分似乎没有太大关系。

有没有办法,使用网络界面,我可以让 HTML Tidy 输出它不理解的项目?

如果没有,是否有另一个用于 ASP.NET 页面的整洁工具不会删除我的所有asp标签?

我发现与此相关的最接近的问题是.NET 版本的 HTML Tidy?,但可能会有更好的答案在我的搜索中没有出现。

0 投票
2 回答
347 浏览

ruby - 将输入标签放在单独的行上的 HTML 美化器

我必须使用一些看起来非常难看的标记,并且我在 ruby​​ 上通过 Tidy 运行它。在大多数情况下,它工作得很好,除了它将标记中的大量隐藏输入集中在一行上。我知道有一个列换行的设置,但如果它只是将同级输入放在单独的行上会更好。这很重要,因为它可以在查看标记并在那些隐藏的输入中快速查看信息时简化调试。

我还没有找到可以做到这一点的工具。那么那里有什么东西还是我很愚蠢?

我还应该补充一点,很多问题源于我最初得到的错误标记,并且在它到达我之前我无能为力。我试过 Nokogiri-pretty 来清理它,它非常接近完美,但它把脚本标签变成了自闭标签,这是不好的。

现在我正在整理源代码,然后(我知道这很糟糕)gsub(/<input[^>]*>/, '\0'+"\n")。我喜欢我必须用换行符连接捕获的事实。

0 投票
1 回答
938 浏览

java - w3c HTML Validator 上使用的 JTidy (HTML-Tidy) 配置

我正在使用 JTidy(HTML Tidy 库的 Java 端口)来清理一些现有站点。当我使用我的 JTidy 配置时,似乎非常严格,最终切断了页面底部(标记错误)。

当我只通过 w3c HTML 验证器工具运行相同的标记时,它会清理它,但在重写时更智能;它似乎不是切断标签,而是智能地猜测丢失的标签在哪里,并相应地更新结构。

有谁知道 w3c 使用的 HTML-Tidy 配置?

我的 jtidy 配置如下:

0 投票
1 回答
522 浏览

php - PHP/HTML Tidy:anchor-as-name = no 似乎不起作用?

我正在使用 PHP Tidy 作为包含的脚本,虽然它似乎大部分(如果不完美)有效,但从我的标签中删除名称属性似乎不起作用。我已经尝试了一切来删除它们,包括在运行 Tidy 之前使用 PHP Simple HTML DOM 删除它们,但它们只是不断被放回原处。

我已经对这个问题进行了广泛的研究,但我得出的唯一结果是人们推荐使用锚作为名称,所以它必须有效,而且我正在做的事情只是有些东西不起作用。

我的 Tidy 配置如下,也许其他东西覆盖了 anchor-as-name 元素?我把它移到了底部,以防万一,但它似乎没有。我也尝试将其设置为 false,但这也无济于事。

想想看,show-body-only 似乎也不起作用……也许整个事情都被忽略了,而我在做其他根本错误的事情?

任何线索和帮助将不胜感激。

Oezi:感谢有关更新问题的提示。这是我在这里提出的第一个问题。

我正在使用 id 标签。这是通常发生的情况(所有相关变量均已定义):

产生(为易读添加了换行符):

所以 tidy 不仅添加了名称标签,尽管 anchor-as-name 设置为 no,它还在正文之外生成标签,尽管 show-body-only 设置为 yes。

虽然显而易见的解决方案似乎只是不使用 tidy,但由于我从简单的 html dom 中得到了我想要的上述行,我正在解析用 Word 编写的百万字符以上的文件(500-1000 页文档)的可悲HTML 版本——每天都有——所以它确实对它的许多其他功能很有帮助。