问题标签 [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 HTMLCleaner 用 Java 解析 HTML;如何识别属性中的“<”字符?
我正在解析一些非常糟糕的 html 代码。我取得了很好的成功,直到我注意到某些元素的属性包含“<”。
前任:
将导致
这将在浏览器中正常呈现,但 HTML 清理器会认为它正在尝试启动一个新标签。它在开始一个新标签之前添加了一个“>”,这是我不想要的。
解决此问题的最佳方法是什么?我不确定 HTMLCleaner 是否有任何可以配置来管理它的属性。如果没有,我应该如何预处理 HTML 数据以修复这些字符?
编辑:固定示例
编辑:我想我可以在进入 htmlcleaner 之前应用一个带有正则表达式的 replaceAll()。也许像 ="[^"]*" 之类的东西并搜索它是否包含 "<".. 如果包含,则替换为转义的 html & 符号。这行得通吗?
java - 以适当的格式生成 PDF 文件
为了我的使用,我使用飞碟库创建了一个 PDF 文件。这是一个遗留的 HTML,所以我使用 HTMLCleaner 库清理了 XHTML。
在此之后,我将 XML 序列化为字符串,然后将其传递给飞碟的 iText 模块以呈现它并随后创建 PDF。
这个 PDF 我把它放在OutputStream
. 提交响应后,我会收到一个对话框,要求保存或打开它。但是它不会保存为 PDF 文件。我必须右键单击并在 Adobe 或任何 PDF 阅读器中打开它。
如何让它显示在 PDF 阅读器中。并使文件保存为 .pdf 文件。什么是处理此问题的有效且用户友好的方法?一如既往的帮助将不胜感激!
java - 解决 HtmlCleaner 获取 HTTP 响应代码 403 的问题
我正在使用 html 清洁器从网站获取数据……但我不断收到此错误。
服务器返回 HTTP 响应代码:403 用于 URL:http ://www.groupon.com/browse/chicago?z=skip
我不确定我做错了什么,因为我以前使用过相同的代码并且它工作得很好。有人可以帮助我吗?
代码如下:
java - 方法 createDOM 不返回文档
我使用 HtmlCleaner 2.6.1 和 Xpath 来解析 Android 应用程序中的 html 页面。这里的html页面:
http://www.kino-govno.com/comments/42571-postery-kapitan-fillips-i-poslednij-rubezh
http://www.kino-govno.com/comments/42592-fantasticheskie-idei-i-mesta-ih-obitanija
第一个链接返回文件,就可以了。第二个链接在这里:
什么都不返回。
如果你创建一个没有 android 的简单 java 项目。这一切都很好。
这是代码:
java - 使用 HtmlCleaner 清理 html
我在手机上存储了一个 html 文件,我想用 HtmlCleaner 清理它并查看输出结果。这是我的代码:
这没有任何作用。我想在手机上的某处查看 .xml 或已清理的 .html 文件。
这是 htmlToClean 变量:
java - 尝试使用 HtmlCleaner 和 XPath 解析 html
我正在尝试从某个网站(这是该网站)获取表数据,并且我正在尝试通过尝试获取某个节点来进行尝试。这是我的尝试:
这不起作用,应用程序崩溃,这是 logcat:
java - 使用 XPath 导致问题
所以我正在学习如何使用 XPath 和 HtmlCleaner 来解析 HTML,但我遇到了一个问题。这是代码:
所以我显然是在尝试解析某些数据并将其设置为 textview。这不起作用,结果完全错误:
com.whizzapps.stpsurniki.ScheudeleWithDesign$getScheudele@421a7d90
我的猜测是问题出在 XPath 中:
我以前从未使用过 XPath,所以我几乎可以肯定我把那部分搞砸了。顺便说一下,这是我试图从中解析数据的站点。这段代码应该只为初学者获取一个表格元素,一旦我知道该怎么做,我将解析整个表格。
java - 如何从 HtmlCleaner 获取已清理的 html 文件?
我的应用程序第一次启动时会将某个网站下载为 HTML 文件。HTML 文件当然很乱,所以我想用 HtmlCleaner 清理它,然后我可以用 Jsoup 解析它。但是如何在清理后获得新的清理过的 html 项目?
我做了一些研究,这就是我能找到的全部:
但是我看不到这段代码在哪里写入了一个新文件?如果没有,我该如何实现它以便删除旧文件并创建新的清理过的 html 文件?
java - 使用 HtmlCleaner 和 AsyncTask 清理 HTML
我正在尝试获取一个干净的 XML 文件,以便我可以解析数据。这是我的尝试:
我必须使用 AsyncTask,因为如果我在主 UI 上这样做,应用程序就会崩溃。
现在这就是我尝试执行此操作的方式:
但是,这不起作用。它强调了“cleanHtml.execute();” 并说:
无法从 AsyncTask 类型对非静态方法 execute(Void...) 进行静态引用
知道我现在如何运行这个 AsyncTask 吗?我做得对吗?另外,一旦我得到这个工作,我在哪里可以看到输出cleaned.xml文件?因为我没有设置任何“输出文件夹”。
java - 尝试使用 HtmlCleaner 清理 HTML 时 AsyncTask 不执行
我正在尝试使用 AsyncTask 使用 HtmlCleaner 清理 HTML。这是代码:
我在 onCreate 方法中执行 AsyncTask:
然而,什么也没有发生。如您所见,我将 log.i 放在 AsyncTask 中以查看它是否正在执行 r ,但我从未在 logcat 中看到 log.i 消息。我可能做错了什么?另外,“cleaned.xml”会出现在我手机的哪个位置?因为我没有设置任何类型的目标文件夹。
日志猫(信息):