问题标签 [jtidy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1224 浏览

dom - 解析从 JTidy 返回的 DOM 以查找特定的 HTML 元素

我一直在玩这段代码,但我不确定我做错了什么。

我得到一个 url,用 JTidy 清理它,因为它的格式不正确,然后我需要找到一个特定的隐藏输入字段 ( input type="hidden" name="mytarget" value="313"),所以我知道 name 属性中的值。

当它清理它时,我让它打印出整个 html 页面,这样我就可以将我正在寻找的内容与文档中的内容进行比较。

我的问题是试图确定找到这个的最佳方法,关于我在哪里System.out << it

0 投票
1 回答
2268 浏览

java - 漂亮的格式化 HTML5 输出

我正在尝试自动缩进 HTML5 输出。我尝试使用的工具是 JTidy,但问题是它不支持 HTML5 元素,例如它将所有元素移动到标题,而 HTML5 在正文中使用它们。

由于 HTML 不是 XML,我不能使用典型的 Java XML 工具进行缩进。

0 投票
4 回答
20734 浏览

java - 如何让 JTIdy 使 HTML 文档格式正确?

我正在使用 JTidy v. r938。我正在使用此代码来尝试清理页面……</p>

但是当我解析这个 URL 时—— http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=This+Week&eventCategory=93922&keywords=&page=1,事情并没有得到清理。例如,页面上的 META 标签,如

保持为

而不是具有“</META>”标签或显示为“<META http-equiv="Content-Type" content="text/html; 字符集=UTF-8"/>"。我通过将生成的 JTidy org.w3c.dom.Document 作为字符串输出来确认这一点。

我可以做些什么来使 JTidy 真正清理页面——即使其格式正确?我意识到那里还有其他工具,但这个问题特别与使用 JTIdy 有关。

0 投票
1 回答
710 浏览

java - 用 Java 清理 Html5 页面:有可能吗?

我需要清理我的 Java 项目中的 Html5 页面。

所以我需要一个 Java 库,或者一个在 Linux 和 Windows 上都可以运行的命令行程序。

JTidy 不能很好地工作(我测试过)。HTML5 的 HTML Tidy 是一个 C++ 库,它的命令行版本仅适用于 Linux。

你知道 Validator.nu HTML Parser 是否也清理了(我没有找到任何关于它的信息)?

你有什么想法吗?

谢谢

0 投票
1 回答
735 浏览

java - jTidy html 到 xhtml 返回空文件

我正在尝试从 html 文件创建 xhtml 文件,但我遇到了错误。在转换期间,我收到以下错误:

第 1 行第 1 列 - 警告:插入缺少的“标题”元素

InputStream:文档内容看起来像 HTML 2.0

1 个警告,未发现错误!

我的代码如下:

最后我收到一个空文件。我究竟做错了什么?

真诚的,佐利

0 投票
0 回答
241 浏览

java - 无需整理源代码的 HTML 解析器

我的机器上有数百个旧的 html 文件,我正在尝试解析和提取一些数据。我尝试了不同的 Java 解析器,包括 Jsoup、Tagsoup、HTMLcleaner、JTidy 等。由于 html 代码在文件中的方式,我只能使用支持 XPATH 的解析器,尝试了 Jsoup,但找不到等效的 css 选择器。

无论如何,我的问题是无论我尝试什么解析器,都会清理实际内容并将 ' (撇号)之类的东西转换为奇怪的字符。

是否可以使用任何 Java 解析器解析内容而无需整理和替换特殊字符?

0 投票
1 回答
126 浏览

java - 如何在netbeans中使用调试器在java中导入w3c Tidy接口

我的代码中有一个错误,它使用 JTidy 来清理一些 html。当它发现格式错误的 html 时,我可以跳过它。但有时程序会在格式错误的 html 上停止,所以我想看看我的代码中发生了什么。但我似乎无法在 netbeans 上运行调试器。调试器停在这Debugger stopped on uncompilable source code.条线上import org.w3c.tidy.Tidy;我运行程序的方式是在命令提示符下:java -cp jtidy-r938.jar;. HtmlCleanerTest http://yahoo.com那么有没有办法在 netbeans 中调试它,或者我只需要使用 println 语句?

0 投票
1 回答
736 浏览

java - 在 GUI JTextArea 中显示 Jtidy 错误/警告消息

我正在编写一个程序,它使用 jtidy 从从 URL 获得的源代码中清理 html。我想在 GUI 中的 JTextArea 中显示错误和警告。我将如何将警告从打印到标准输出“重新路由”到 JTextArea?我查看了 Jtidy API 并没有看到任何我想要的东西。任何人都知道我该怎么做,或者甚至可能吗?

// 测试 jtidy 选项

0 投票
1 回答
127 浏览

jtidy - 我可以阻止 JTidy 将属性值中的撇号转换为实体吗

我的输入 HTML 有一行与此类似:

JTidy 正在转换为

有没有办法抑制实体转换?似乎有一种配置方法可以防止双引号被转换(setQuoteMarks()),但我没有看到类似的撇号。

0 投票
0 回答
1586 浏览

java - 使用 JTidy 抓取 Java 屏幕 - 解析 HTML 值

所以我想要完成的是从网络系列中抓取一个 IMDB 网页以获取数据。问题是当我将页面转换为 DOM 对象并尝试获取值时,它并不像看起来那么容易。

例如:我使用 getElementsByTagName("h1") -> 它返回 1 个值,所以我知道我可以得到什么值(在这种情况下是节目的名称)。但是当我想提取节目评级时,它被隐藏在 Div 中并且很难查找。所以我尝试使用 getElementById(id of the element) 来获取该id的元素(div),这样我就可以缩短搜索时间。

但它返回一个空值?抓取此类页面的最简单方法是什么?

这是一个代码片段 public final class IMDBExtractor { private String imdbId;

}

在这种情况下我要抓取的页面是: 箭头

所有 imdb 页面都有相同的模型,所以这不是问题,你们知道一个简单的方法吗?