问题标签 [jtidy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
445 浏览

html - JTidy 节点处理

我正在使用 JTidy 来解析网页数据。我的问题如下:

可以在以前检索到的节点上调用 XPath.evalate 方法吗?

我会更好地解释。通常您使用xmlPath.evaluate(pattern, document, XPathConstants.NODE)方法调用来检索与您的 xpath 表达式匹配的节点列表。

一旦我检索到一个节点或 nodeList,我该如何从上一个检索到的节点开始执行 xmlPath.evaluate ,类似于 xmlPath.evaluate(pattern, node , XPathConstants.NODE)

0 投票
5 回答
6848 浏览

java - 如何在java中删除Jtidy中的警告

我在 java 中使用 Jtidy 解析器。

当我运行它时,“doc = new Tidy().parseDOM(in, null);” 我收到一些警告如下:

这些警告会自动显示在控制台上。但我不希望这些警告在运行后显示在我的控制台上

请帮助我,如何做到这一点,如何从控制台中删除这些警告。

0 投票
2 回答
234 浏览

java - 如何在java中单击图像时打开特定链接?

我正在使用 Jtidy 解析器从 java 中的网页获取图像。

它工作正常,从上面的代码我得到了图像。如何在java中单击该图像时打开链接“www.yahoo.com”?

0 投票
1 回答
248 浏览

java - 如何在java中为文档对象设置解析持续时间限制

我在java中使用Jtidy解析器。这是我的代码......

当我来到这个语句Document doc = tidy.parseDOM(in, null);时,解析页面花费了太多时间,所以我想为文档对象设置时间限制。请帮助我,如何设置时间。

0 投票
1 回答
2719 浏览

java - jTidy - 漂亮的无头打印,标题标签

我正在尝试使用 jTidy 在我拥有的 HTML 片段上进行漂亮的打印。到目前为止,我已经完成了以下工作。

这可行,但输出包括附加内容,例如 <html>、<head>、<title> 和 <body> 标签。

例如,对于输入 <ul><li>sub1</li><li>sub2<ul><li>sub21</li></ul></li></ul> 这给出,

浏览API后,我找到了setPrintBodyOnly方法(我在上面使用过),但仍然没有运气。

我在这里想念什么?我试过谷歌搜索,但到目前为止所有链接都导致死胡同。

0 投票
1 回答
142 浏览

java - Java中的标题文本问题

我在 java 中使用了 Jtidy 解析器来获取标题文本。

上面的代码工作正常,它在第 0 个索引处读取标题,如果没有找到,则在第 1 个索引处,然后在第 2 个索引处。但是这里我遇到了问题:-对于某些页面,存在标题文本在页面中间或下方,因此此代码不适用于此类页面。这样,在这种情况下,程序的长度会增加。有没有其他解决方案,可以一次性读取整个页面的标题?。请帮我。

0 投票
1 回答
82 浏览

java - 使用节点连接到网站

我正在尝试编写一个程序来连接到网站,获取源代码,<body>使用节点查找标签。在该标签中,我想在其中输入三个“文本字段”,并将其流式传输回网站。

我到目前为止找到了<body>标签,但现在我实际上一无所知。

0 投票
3 回答
3224 浏览

java - Java 中的漂亮打印(“仅缩进”)HTML 文档(没有 JTidy)

我们正在使用 apache 速度通用模板引擎生成 HTML 文件。生成的 HTML 有点丑陋,而且没有正确的缩进。

在我的情况下,我将 HTML 存储在我想以这种方式操作的字符串中,它看起来很漂亮。

我已经尝试过 JTidy,但是当我通过管道传输原始 HTML 时,它会更改 HTML 源代码。有时它会添加或删除 HTML 标记。

我的问题:

是否有 java 库或其他东西(仅!)可以漂亮地打印我的 HTML 代码,而无需从我的 HTML 文档中添加、删除标签?它只会做缩进,所以它看起来很漂亮!不多也不少。有任何想法吗?:-)

也欢迎代码建议、提示或技巧。

此致

0 投票
1 回答
2893 浏览

xpath - 如何使用 jtidy 和 xpath 提取数据

我必须从http://money.rediff.com/companies/20-microns-ltd/15110088中提取 d 公司名称和面值

我注意到这个任务可以使用 xpath api 来完成。因为这是一个 html 页面,所以我使用的是 jtidy 解析器。

这是我必须提取的面值的 xpath。

这是我的代码

请进一步指导我,因为我找不到上述问题的正确解决方案

0 投票
1 回答
759 浏览

java - 格式错误的 XML/HTML 解析

我需要解析多个(读取大约 1600 个)HTML 页面并从每个文件中提取以下标签的内容。

(这实际上是一个 html textarea 标记)我曾以为我可以使用 DOMparser 但文件包含太多错误,所以我遇到了 JTidy,来自 stackoverflow 上的另一个问题,我尝试使用它。 ..

但这似乎无法将任何页面的 html 转换为 XHTML,因此我可以使用 DOM 解析器。

然后我认为我可以使用正则表达式,但我找不到提取该文本所需的特定表达式,而且我遇到了多个问题/答案,这些问题/答案说不要使用正则表达式来解析 HTML ...

所以基本上我的问题是有没有其他方法可以从格式错误的html中获取我需要的文本?