问题标签 [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 HTMLCleaner 用 Java 解析 HTML;如何识别属性中的“<”字符?
我正在解析一些非常糟糕的 html 代码。我取得了很好的成功,直到我注意到某些元素的属性包含“<”。
前任:
将导致
这将在浏览器中正常呈现,但 HTML 清理器会认为它正在尝试启动一个新标签。它在开始一个新标签之前添加了一个“>”,这是我不想要的。
解决此问题的最佳方法是什么?我不确定 HTMLCleaner 是否有任何可以配置来管理它的属性。如果没有,我应该如何预处理 HTML 数据以修复这些字符?
编辑:固定示例
编辑:我想我可以在进入 htmlcleaner 之前应用一个带有正则表达式的 replaceAll()。也许像 ="[^"]*" 之类的东西并搜索它是否包含 "<".. 如果包含,则替换为转义的 html & 符号。这行得通吗?
java - 以适当的格式生成 PDF 文件
为了我的使用,我使用飞碟库创建了一个 PDF 文件。这是一个遗留的 HTML,所以我使用 HTMLCleaner 库清理了 XHTML。
在此之后,我将 XML 序列化为字符串,然后将其传递给飞碟的 iText 模块以呈现它并随后创建 PDF。
这个 PDF 我把它放在OutputStream. 提交响应后,我会收到一个对话框,要求保存或打开它。但是它不会保存为 PDF 文件。我必须右键单击并在 Adobe 或任何 PDF 阅读器中打开它。
如何让它显示在 PDF 阅读器中。并使文件保存为 .pdf 文件。什么是处理此问题的有效且用户友好的方法?一如既往的帮助将不胜感激!
java - 解决 HtmlCleaner 获取 HTTP 响应代码 403 的问题
我正在使用 html 清洁器从网站获取数据……但我不断收到此错误。
服务器返回 HTTP 响应代码:403 用于 URL:http ://www.groupon.com/browse/chicago?z=skip
我不确定我做错了什么,因为我以前使用过相同的代码并且它工作得很好。有人可以帮助我吗?
代码如下:
java - 方法 createDOM 不返回文档
我使用 HtmlCleaner 2.6.1 和 Xpath 来解析 Android 应用程序中的 html 页面。这里的html页面:
http://www.kino-govno.com/comments/42571-postery-kapitan-fillips-i-poslednij-rubezh
http://www.kino-govno.com/comments/42592-fantasticheskie-idei-i-mesta-ih-obitanija
第一个链接返回文件,就可以了。第二个链接在这里:
什么都不返回。
如果你创建一个没有 android 的简单 java 项目。这一切都很好。
这是代码:
java - 使用 HtmlCleaner 清理 html
我在手机上存储了一个 html 文件,我想用 HtmlCleaner 清理它并查看输出结果。这是我的代码:
这没有任何作用。我想在手机上的某处查看 .xml 或已清理的 .html 文件。
这是 htmlToClean 变量:
java - 尝试使用 HtmlCleaner 和 XPath 解析 html
我正在尝试从某个网站(这是该网站)获取表数据,并且我正在尝试通过尝试获取某个节点来进行尝试。这是我的尝试:
这不起作用,应用程序崩溃,这是 logcat:
java - 使用 XPath 导致问题
所以我正在学习如何使用 XPath 和 HtmlCleaner 来解析 HTML,但我遇到了一个问题。这是代码:
所以我显然是在尝试解析某些数据并将其设置为 textview。这不起作用,结果完全错误:
com.whizzapps.stpsurniki.ScheudeleWithDesign$getScheudele@421a7d90
我的猜测是问题出在 XPath 中:
我以前从未使用过 XPath,所以我几乎可以肯定我把那部分搞砸了。顺便说一下,这是我试图从中解析数据的站点。这段代码应该只为初学者获取一个表格元素,一旦我知道该怎么做,我将解析整个表格。
java - 如何从 HtmlCleaner 获取已清理的 html 文件?
我的应用程序第一次启动时会将某个网站下载为 HTML 文件。HTML 文件当然很乱,所以我想用 HtmlCleaner 清理它,然后我可以用 Jsoup 解析它。但是如何在清理后获得新的清理过的 html 项目?
我做了一些研究,这就是我能找到的全部:
但是我看不到这段代码在哪里写入了一个新文件?如果没有,我该如何实现它以便删除旧文件并创建新的清理过的 html 文件?
java - 使用 HtmlCleaner 和 AsyncTask 清理 HTML
我正在尝试获取一个干净的 XML 文件,以便我可以解析数据。这是我的尝试:
我必须使用 AsyncTask,因为如果我在主 UI 上这样做,应用程序就会崩溃。
现在这就是我尝试执行此操作的方式:
但是,这不起作用。它强调了“cleanHtml.execute();” 并说:
无法从 AsyncTask 类型对非静态方法 execute(Void...) 进行静态引用
知道我现在如何运行这个 AsyncTask 吗?我做得对吗?另外,一旦我得到这个工作,我在哪里可以看到输出cleaned.xml文件?因为我没有设置任何“输出文件夹”。
java - 尝试使用 HtmlCleaner 清理 HTML 时 AsyncTask 不执行
我正在尝试使用 AsyncTask 使用 HtmlCleaner 清理 HTML。这是代码:
我在 onCreate 方法中执行 AsyncTask:
然而,什么也没有发生。如您所见,我将 log.i 放在 AsyncTask 中以查看它是否正在执行 r ,但我从未在 logcat 中看到 log.i 消息。我可能做错了什么?另外,“cleaned.xml”会出现在我手机的哪个位置?因为我没有设置任何类型的目标文件夹。
日志猫(信息):