问题标签 [jtidy]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

97 问题

0 投票

1 回答

445 浏览

html - JTidy 节点处理

我正在使用 JTidy 来解析网页数据。我的问题如下：

可以在以前检索到的节点上调用 XPath.evalate 方法吗？

我会更好地解释。通常您使用xmlPath.evaluate(pattern, document, XPathConstants.NODE)方法调用来检索与您的 xpath 表达式匹配的节点列表。

一旦我检索到一个节点或 nodeList，我该如何从上一个检索到的节点开始执行 xmlPath.evaluate ，类似于 xmlPath.evaluate(pattern, node , XPathConstants.NODE)

2011-05-31T16:02:46.200

0 投票

5 回答

6848 浏览

java - 如何在java中删除Jtidy中的警告

我在 java 中使用 Jtidy 解析器。

当我运行它时，“doc = new Tidy().parseDOM(in, null);” 我收到一些警告如下：

这些警告会自动显示在控制台上。但我不希望这些警告在运行后显示在我的控制台上

请帮助我，如何做到这一点，如何从控制台中删除这些警告。

java jtidy

2011-06-02T11:11:39.803

0 投票

2 回答

234 浏览

java - 如何在java中单击图像时打开特定链接？

我正在使用 Jtidy 解析器从 java 中的网页获取图像。

它工作正常，从上面的代码我得到了图像。如何在java中单击该图像时打开链接“www.yahoo.com”？

java jtidy

2011-06-03T06:23:15.813

0 投票

1 回答

248 浏览

java - 如何在java中为文档对象设置解析持续时间限制

我在java中使用Jtidy解析器。这是我的代码......

当我来到这个语句Document doc = tidy.parseDOM(in, null);时，解析页面花费了太多时间，所以我想为文档对象设置时间限制。请帮助我，如何设置时间。

java jtidy

2011-06-13T13:35:19.493

0 投票

1 回答

2719 浏览

java - jTidy - 漂亮的无头打印，标题标签

我正在尝试使用 jTidy 在我拥有的 HTML 片段上进行漂亮的打印。到目前为止，我已经完成了以下工作。

这可行，但输出包括附加内容，例如 <html>、<head>、<title> 和 <body> 标签。

例如，对于输入 <ul><li>sub1</li><li>sub2<ul><li>sub21</li></ul></li></ul> 这给出，

浏览API后，我找到了setPrintBodyOnly方法（我在上面使用过），但仍然没有运气。

我在这里想念什么？我试过谷歌搜索，但到目前为止所有链接都导致死胡同。

java pretty-print jtidy

2011-06-19T16:56:28.717

0 投票

1 回答

142 浏览

java - Java中的标题文本问题

我在 java 中使用了 Jtidy 解析器来获取标题文本。

上面的代码工作正常，它在第 0 个索引处读取标题，如果没有找到，则在第 1 个索引处，然后在第 2 个索引处。但是这里我遇到了问题：-对于某些页面，存在标题文本在页面中间或下方，因此此代码不适用于此类页面。这样，在这种情况下，程序的长度会增加。有没有其他解决方案，可以一次性读取整个页面的标题？。请帮我。

java jtidy

2011-06-24T06:39:51.143

0 投票

1 回答

82 浏览

java - 使用节点连接到网站

我正在尝试编写一个程序来连接到网站，获取源代码，<body>使用节点查找标签。在该标签中，我想在其中输入三个“文本字段”，并将其流式传输回网站。

我到目前为止找到了<body>标签，但现在我实际上一无所知。

java dom jtidy

2011-07-12T13:10:23.390

0 投票

3 回答

3224 浏览

java - Java 中的漂亮打印（“仅缩进”）HTML 文档（没有 JTidy）

我们正在使用 apache 速度通用模板引擎生成 HTML 文件。生成的 HTML 有点丑陋，而且没有正确的缩进。

在我的情况下，我将 HTML 存储在我想以这种方式操作的字符串中，它看起来很漂亮。

我已经尝试过 JTidy，但是当我通过管道传输原始 HTML 时，它会更改 HTML 源代码。有时它会添加或删除 HTML 标记。

我的问题：

是否有 java 库或其他东西（仅！）可以漂亮地打印我的 HTML 代码，而无需从我的 HTML 文档中添加、删除标签？它只会做缩进，所以它看起来很漂亮！不多也不少。有任何想法吗？:-)

也欢迎代码建议、提示或技巧。

此致

java html pretty-print jtidy jericho-html-parser

2011-07-29T09:43:49.237

0 投票

1 回答

2893 浏览

xpath - 如何使用 jtidy 和 xpath 提取数据

我必须从http://money.rediff.com/companies/20-microns-ltd/15110088中提取 d 公司名称和面值

我注意到这个任务可以使用 xpath api 来完成。因为这是一个 html 页面，所以我使用的是 jtidy 解析器。

这是我必须提取的面值的 xpath。

这是我的代码

请进一步指导我，因为我找不到上述问题的正确解决方案

xpath jtidy

2011-08-13T07:16:10.377

0 投票

1 回答

759 浏览

java - 格式错误的 XML/HTML 解析

我需要解析多个（读取大约 1600 个）HTML 页面并从每个文件中提取以下标签的内容。

（这实际上是一个 html textarea 标记）我曾以为我可以使用 DOMparser 但文件包含太多错误，所以我遇到了 JTidy，来自 stackoverflow 上的另一个问题，我尝试使用它。 ..

但这似乎无法将任何页面的 html 转换为 XHTML，因此我可以使用 DOM 解析器。

然后我认为我可以使用正则表达式，但我找不到提取该文本所需的特定表达式，而且我遇到了多个问题/答案，这些问题/答案说不要使用正则表达式来解析 HTML ...

所以基本上我的问题是有没有其他方法可以从格式错误的html中获取我需要的文本？

java html dom xhtml jtidy

2011-08-26T19:46:04.427

1 2 3 4 5 6 7 8 9 10

问题标签 [jtidy]

Reference