问题标签 [jtidy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 在 Android 上解析 HTML,主要性能问题
我需要解析大约 100 kB 的 HTML 数据,这只会在 Android 上造成巨大的性能问题。我已经尝试过内置的 XML 解析器和 JTidy。
内置的 XML 解析器给了我大约半秒的解析时间,我可以轻松地接受。问题是使用 XML 解析器来解析凌乱的 HTML 代码是一个坏主意,这不是一个选项。(我尝试了预处理,但它甚至开始抱怨有效的 HTML,所以......)
我用谷歌搜索了一下,建议使用 JTidy 在将代码传递给 XML 解析器之前对其进行清理。这绝对是一场噩梦,使用 JTidy 进行预处理解析现在大约需要7 秒。
所以现在我唯一的选择就是正则表达式。你怎么看?
jtidy - 使用 NekoHTML(或 JTidy)+ XOM 转义评论
我正在使用 NekoHTML 清理一些 HTML,然后将其提供给 XOM 以获取对象模型。在此过程中的某个地方,评论正在逃脱。
这是输入 HTML 的相关示例(为了清晰起见,大部分内容都被<head>
删减了):
这是代码:
这是相应的输出:
当我从 XOM 文档中提取 script 元素时,它看起来已经被破坏了(SCRIPT 元素有一个Text
子节点,而不是我期望的序列Texts
)Comments
,所以我不认为这是Serializer
出错了.
现在,我不希望保留换行符,事实上我无论如何都会扔掉脚本标签,但是还有其他地方我希望保留评论或至少希望能够获取没有嵌入其中的转义注释的文本。
有任何想法吗?
更新: NekoHTML 正在修改一些标签,所以我切换到 JTidy,我也遇到了同样的问题。有趣的是,这只是标题中的脚本标签的问题。其他评论通过罚款。还有一些奇怪的额外 JavaScript 注释,我怀疑(希望和祈祷)是 JTidy 的错。
看起来 JTidy 所做的是将<script>
内容转换为 CDATA;当我将 JTidy 的原始输出发送到标准输出时,我得到了这个:
java - 使用 JTidy 解析链接
我目前正在使用 JTidy 解析 HTML 文档并获取给定 HTML 文档中所有锚标记的集合。然后,我提取每个标签的 href 属性的值,以在页面上生成一组链接。
不幸的是,这些链接可以用几种不同的方式表示:一些绝对的(http://www.example.com/page.html
),一些相对的(/page.html
、page.html
或../page.html
)。甚至,有些可能只是锚(#paragraphA
)。当我在浏览器中访问我的页面时,如果我要单击链接,它会自动知道如何处理这些不同的 href 值,但是如果我要使用 HTTPClient 以编程方式跟踪从 JTidy 检索到的这些链接之一,我首先需要提供一个有效的 URL(例如,我首先需要将 /page.html、page.html 和http://www.example.com/page.html转换为http://www.example.com/page.html) .
是否有一些内置功能,无论是在 JTidy 还是其他地方,都可以为我实现这一点?还是我需要创建自己的规则来将这些不同的 URL 转换为绝对 URL?
java - 在 DIV HTML 中遍历或查找元素的最快方法
我正在编写一个实用程序,它应该点击动态页面的 URL,检索内容,在各种嵌套的 div 标签中搜索特定的 div 标签并获取内容。
主要是,我正在寻找一些 Java 代码/库。JavaScript 或一些基于 JavaScript 的库也适用于我。
我入围以下 -> JSoup、Jerry、JTidy(最后更新于 2009-12-01)。哪一个是最好的性能明智的?
编辑:改写问题。添加了入围库。
java - 如何删除 Jtidy 中的错误日志?
我将下面的代码用于 jtidy。
它可以删除所有警告日志,但我仍然在下面收到错误日志
我怎样才能消除上面的错误?看起来我在配置文件中设置“show-errors=0”也不起作用,有什么想法吗?谢谢!
jtidy.config:
html-entities - 如何让jtidy不把汉字转成html实体?
我有一些 html 要通过 jtidy 转换,其中包含一些汉字:
但结果看起来像:
如何配置jtidy,让它不把汉字转成html实体?
java - jTidy 整理 HTML 后不返回任何内容
我在使用 jTidy(在 Android 上)时遇到了一个非常烦人的问题。我发现 jTidy 适用于我测试过的每个 HTML 文档,除了以下内容:
但是在整理之后,jTidy 什么也不返回(例如,如果包含整理的 HTML 的字符串被称为结果,result.equals("") == true)
不过,我注意到一些非常有趣的事情:如果我删除 HTML 正文部分的所有内容,jTidy 就可以完美运行。<body></body> jTidy 有什么不喜欢的吗?
这是我正在使用的 Java 代码:
我的 Java 有问题吗?这是 jTidy 的错误吗?有什么办法可以让 jTidy 不这样做吗?(我无法更改 HTML)。如果这绝对无法解决,还有其他好的 HTML Tidiers 吗?非常感谢!
html - 如何向 JTidy 添加新标签?
我正在尝试使用 jTidy 从(现实世界)HTML 中提取数据。但 jTidy 不解析自定义标签。
我无法在自定义标签之间获取文本。我必须使用 jTidy,因为我将使用 xpath。
我尝试了 HTMLCleaner,但它不支持完整的 xpath 功能。
dom - 如何将 org.w3c.dom.Document 转换为 org.jdom.Document
我需要将 a 转换org.w3c.dom.Document
为 org.jdom.Document
我尝试了以下..
domBuilder.build(tidyDOM)
抛出以下异常:
java - w3c HTML Validator 上使用的 JTidy (HTML-Tidy) 配置
我正在使用 JTidy(HTML Tidy 库的 Java 端口)来清理一些现有站点。当我使用我的 JTidy 配置时,似乎非常严格,最终切断了页面底部(标记错误)。
当我只通过 w3c HTML 验证器工具运行相同的标记时,它会清理它,但在重写时更智能;它似乎不是切断标签,而是智能地猜测丢失的标签在哪里,并相应地更新结构。
有谁知道 w3c 使用的 HTML-Tidy 配置?
我的 jtidy 配置如下: