问题标签 [jtidy]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

97 问题

0 投票

2 回答

1224 浏览

dom - 解析从 JTidy 返回的 DOM 以查找特定的 HTML 元素

我一直在玩这段代码，但我不确定我做错了什么。

我得到一个 url，用 JTidy 清理它，因为它的格式不正确，然后我需要找到一个特定的隐藏输入字段 ( input type="hidden" name="mytarget" value="313")，所以我知道 name 属性中的值。

当它清理它时，我让它打印出整个 html 页面，这样我就可以将我正在寻找的内容与文档中的内容进行比较。

我的问题是试图确定找到这个的最佳方法，关于我在哪里System.out << it。

2012-03-05T19:44:17.170

0 投票

1 回答

2268 浏览

java - 漂亮的格式化 HTML5 输出

我正在尝试自动缩进 HTML5 输出。我尝试使用的工具是 JTidy，但问题是它不支持 HTML5 元素，例如它将所有元素移动到标题，而 HTML5 在正文中使用它们。

由于 HTML 不是 XML，我不能使用典型的 Java XML 工具进行缩进。

java html pretty-print indentation jtidy

2012-03-21T16:36:29.490

0 投票

4 回答

20734 浏览

java - 如何让 JTIdy 使 HTML 文档格式正确？

我正在使用 JTidy v. r938。我正在使用此代码来尝试清理页面……</p>

但是当我解析这个 URL 时—— http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=This+Week&eventCategory=93922&keywords=&page=1，事情并没有得到清理。例如，页面上的 META 标签，如

保持为

而不是具有“</META>”标签或显示为“<META http-equiv="Content-Type" content="text/html; 字符集=UTF-8"/>"。我通过将生成的 JTidy org.w3c.dom.Document 作为字符串输出来确认这一点。

我可以做些什么来使 JTidy 真正清理页面——即使其格式正确？我意识到那里还有其他工具，但这个问题特别与使用 JTIdy 有关。

java html xml parsing jtidy

2012-04-30T21:36:36.733

0 投票

1 回答

710 浏览

java - 用 Java 清理 Html5 页面：有可能吗？

我需要清理我的 Java 项目中的 Html5 页面。

所以我需要一个 Java 库，或者一个在 Linux 和 Windows 上都可以运行的命令行程序。

JTidy 不能很好地工作（我测试过）。HTML5 的 HTML Tidy 是一个 C++ 库，它的命令行版本仅适用于 Linux。

你知道 Validator.nu HTML Parser 是否也清理了（我没有找到任何关于它的信息）？

你有什么想法吗？

谢谢

java html java-7 jtidy

2012-07-12T16:29:59.467

0 投票

1 回答

735 浏览

java - jTidy html 到 xhtml 返回空文件

我正在尝试从 html 文件创建 xhtml 文件，但我遇到了错误。在转换期间，我收到以下错误：

第 1 行第 1 列 - 警告：插入缺少的“标题”元素

InputStream：文档内容看起来像 HTML 2.0

1 个警告，未发现错误！

我的代码如下：

最后我收到一个空文件。我究竟做错了什么？

真诚的，佐利

java xhtml html-parsing jtidy

2012-07-16T13:36:48.590

0 投票

0 回答

241 浏览

java - 无需整理源代码的 HTML 解析器

我的机器上有数百个旧的 html 文件，我正在尝试解析和提取一些数据。我尝试了不同的 Java 解析器，包括 Jsoup、Tagsoup、HTMLcleaner、JTidy 等。由于 html 代码在文件中的方式，我只能使用支持 XPATH 的解析器，尝试了 Jsoup，但找不到等效的 css 选择器。

无论如何，我的问题是无论我尝试什么解析器，都会清理实际内容并将 ' （撇号）之类的东西转换为奇怪的字符。

是否可以使用任何 Java 解析器解析内容而无需整理和替换特殊字符？

java parsing html-parsing jtidy htmlcleaner

2012-08-23T09:59:58.497

0 投票

1 回答

126 浏览

java - 如何在netbeans中使用调试器在java中导入w3c Tidy接口

我的代码中有一个错误，它使用 JTidy 来清理一些 html。当它发现格式错误的 html 时，我可以跳过它。但有时程序会在格式错误的 html 上停止，所以我想看看我的代码中发生了什么。但我似乎无法在 netbeans 上运行调试器。调试器停在这Debugger stopped on uncompilable source code.条线上import org.w3c.tidy.Tidy;我运行程序的方式是在命令提示符下：java -cp jtidy-r938.jar;. HtmlCleanerTest http://yahoo.com那么有没有办法在 netbeans 中调试它，或者我只需要使用 println 语句？

java debugging netbeans jtidy

2012-11-05T20:04:39.147

0 投票

1 回答

736 浏览

java - 在 GUI JTextArea 中显示 Jtidy 错误/警告消息

我正在编写一个程序，它使用 jtidy 从从 URL 获得的源代码中清理 html。我想在 GUI 中的 JTextArea 中显示错误和警告。我将如何将警告从打印到标准输出“重新路由”到 JTextArea？我查看了 Jtidy API 并没有看到任何我想要的东西。任何人都知道我该怎么做，或者甚至可能吗？

// 测试 jtidy 选项

java swing jtextarea jtidy

2012-11-08T04:22:44.623

0 投票

1 回答

127 浏览

jtidy - 我可以阻止 JTidy 将属性值中的撇号转换为实体吗

我的输入 HTML 有一行与此类似：

JTidy 正在转换为

有没有办法抑制实体转换？似乎有一种配置方法可以防止双引号被转换（setQuoteMarks（）），但我没有看到类似的撇号。

jtidy

2012-11-13T21:49:02.173

0 投票

0 回答

1586 浏览

java - 使用 JTidy 抓取 Java 屏幕 - 解析 HTML 值

所以我想要完成的是从网络系列中抓取一个 IMDB 网页以获取数据。问题是当我将页面转换为 DOM 对象并尝试获取值时，它并不像看起来那么容易。

例如：我使用 getElementsByTagName("h1") -> 它返回 1 个值，所以我知道我可以得到什么值（在这种情况下是节目的名称）。但是当我想提取节目评级时，它被隐藏在 Div 中并且很难查找。所以我尝试使用 getElementById(id of the element) 来获取该id的元素（div），这样我就可以缩短搜索时间。

但它返回一个空值？抓取此类页面的最简单方法是什么？

这是一个代码片段 public final class IMDBExtractor { private String imdbId;

}

在这种情况下我要抓取的页面是：箭头

所有 imdb 页面都有相同的模型，所以这不是问题，你们知道一个简单的方法吗？

java html screen-scraping scrape jtidy

2012-11-27T20:14:00.090

1 2 3 4 5 6 7 8 9 10

问题标签 [jtidy]

Reference