问题标签 [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
590 浏览

java - 使用 HTMLCleaner 用 Ja​​va 解析 HTML;如何识别属性中的“<”字符?

我正在解析一些非常糟糕的 html 代码。我取得了很好的成功,直到我注意到某些元素的属性包含“<”。

前任:

将导致

这将在浏览器中正常呈现,但 HTML 清理器会认为它正在尝试启动一个新标签。它在开始一个新标签之前添加了一个“>”,这是我不想要的。

解决此问题的最佳方法是什么?我不确定 HTMLCleaner 是否有任何可以配置来管理它的属性。如果没有,我应该如何预处理 HTML 数据以修复这些字符?

编辑:固定示例

编辑:我想我可以在进入 htmlcleaner 之前应用一个带有正则表达式的 replaceAll()。也许像 ="[^"]*" 之类的东西并搜索它是否包含 "<".. 如果包含,则替换为转义的 html & 符号。这行得通吗?

0 投票
1 回答
1443 浏览

java - 以适当的格式生成 PDF 文件

为了我的使用,我使用飞碟库创建了一个 PDF 文件。这是一个遗留的 HTML,所以我使用 HTMLCleaner 库清理了 XHTML。

在此之后,我将 XML 序列化为字符串,然后将其传递给飞碟的 iText 模块以呈现它并随后创建 PDF。

这个 PDF 我把它放在OutputStream. 提交响应后,我会收到一个对话框,要求保存或打开它。但是它不会保存为 PDF 文件。我必须右键单击并在 Adob​​e 或任何 PDF 阅读器中打开它。

如何让它显示在 PDF 阅读器中。并使文件保存为 .pdf 文件。什么是处理此问题的有效且用户友好的方法?一如既往的帮助将不胜感激!

0 投票
1 回答
374 浏览

java - 解决 HtmlCleaner 获取 HTTP 响应代码 403 的问题

我正在使用 html 清洁器从网站获取数据……但我不断收到此错误。

服务器返回 HTTP 响应代码:403 用于 URL:http ://www.groupon.com/browse/chicago?z=skip

我不确定我做错了什么,因为我以前使用过相同的代码并且它工作得很好。有人可以帮助我吗?

代码如下:

0 投票
1 回答
284 浏览

java - 方法 createDOM 不返回文档

我使用 HtmlCleaner 2.6.1 和 Xpath 来解析 Android 应用程序中的 html 页面。这里的html页面:

  1. http://www.kino-govno.com/comments/42571-postery-kapitan-fillips-i-poslednij-rubezh

  2. http://www.kino-govno.com/comments/42592-fantasticheskie-idei-i-mesta-ih-obitanija

    第一个链接返回文件,就可以了。第二个链接在这里:

    什么都不返回。

如果你创建一个没有 android 的简单 java 项目。这一切都很好。

这是代码:

0 投票
1 回答
968 浏览

java - 使用 HtmlCleaner 清理 html

我在手机上存储了一个 html 文件,我想用 HtmlCleaner 清理它并查看输出结果。这是我的代码:

这没有任何作用。我想在手机上的某处查看 .xml 或已清理的 .html 文件。

这是 htmlToClean 变量:

0 投票
1 回答
2265 浏览

java - 尝试使用 HtmlCleaner 和 XPath 解析 html

我正在尝试从某个网站(这是该网站)获取表数据,并且我正在尝试通过尝试获取某个节点来进行尝试。这是我的尝试:

这不起作用,应用程序崩溃,这是 logcat:

0 投票
1 回答
641 浏览

java - 使用 XPath 导致问题

所以我正在学习如何使用 XPath 和 HtmlCleaner 来解析 HTML,但我遇到了一个问题。这是代码:

所以我显然是在尝试解析某些数据并将其设置为 textview。这不起作用,结果完全错误:

com.whizzapps.stpsurniki.ScheudeleWithDesign$getScheudele@421a7d90

我的猜测是问题出在 XPath 中:

我以前从未使用过 XPath,所以我几乎可以肯定我把那部分搞砸了。顺便说一下,这是我试图从中解析数据的站点。这段代码应该只为初学者获取一个表格元素,一旦我知道该怎么做,我将解析整个表格。

0 投票
1 回答
1784 浏览

java - 如何从 HtmlCleaner 获取已清理的 html 文件?

我的应用程序第一次启动时会将某个网站下载为 HTML 文件。HTML 文件当然很乱,所以我想用 HtmlCleaner 清理它,然后我可以用 Jsoup 解析它。但是如何在清理后获得新的清理过的 html 项目?

我做了一些研究,这就是我能找到的全部:

但是我看不到这段代码在哪里写入了一个新文件?如果没有,我该如何实现它以便删除旧文件并创建新的清理过的 html 文件?

0 投票
1 回答
176 浏览

java - 使用 HtmlCleaner 和 AsyncTask 清理 HTML

我正在尝试获取一个干净的 XML 文件,以便我可以解析数据。这是我的尝试:

我必须使用 AsyncTask,因为如果我在主 UI 上这样做,应用程序就会崩溃。

现在这就是我尝试执行此操作的方式:

但是,这不起作用。它强调了“cleanHtml.execute();” 并说:

无法从 AsyncTask 类型对非静态方法 execute(Void...) 进行静态引用

知道我现在如何运行这个 AsyncTask 吗?我做得对吗?另外,一旦我得到这个工作,我在哪里可以看到输出cleaned.xml文件?因为我没有设置任何“输出文件夹”。

0 投票
1 回答
177 浏览

java - 尝试使用 HtmlCleaner 清理 HTML 时 AsyncTask 不执行

我正在尝试使用 AsyncTask 使用 HtmlCleaner 清理 HTML。这是代码:

我在 onCreate 方法中执行 AsyncTask:

然而,什么也没有发生。如您所见,我将 log.i 放在 AsyncTask 中以查看它是否正在执行 r ,但我从未在 logcat 中看到 log.i 消息。我可能做错了什么?另外,“cleaned.xml”会出现在我手机的哪个位置?因为我没有设置任何类型的目标文件夹。

日志猫(信息):