问题标签 [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
243 浏览

java - 带有简单 HTMLserializer 的 NullPointerException


我正在尝试从TagNode. 问题是,有一个内部异常阻止它工作。这是我的电话:

root 当然不为空,显然序列化器也不为空。

这是堆栈跟踪:

更新:我找到了一种解决方法,甚至没有使用 HtmlSerializer 或 TagNode (使用我已经成功提取的 html 和一些字符串命令)

0 投票
2 回答
668 浏览

android - 如何在 htmlcleaner 或 jSoup 中的标签中提取文本

我是 Android 开发的新手,无法理解 HtmlCleaner 或 jSoup 基础知识。

我有一个页面,例如

如何提取<b>..</b>标签中的单词?

0 投票
2 回答
336 浏览

java - XPath 表达式,一个节点中的两个字符串

我下载了 html 表单,用 htmlCleaner 清理它。最初它看起来像这样(现在它的格式很好,但我不知道如何简单地展示它,我希望这已经足够了):

是否有 XPath 表达式来提取“请填写您的用户名”和“原因”但在两个单独的字符串中? 此外,htmlCleaner 不支持所有表达式,这里是 ->列表<- 可能的表达式。

谢谢

0 投票
2 回答
613 浏览

java - 如何从网站 url 获取干净的 xml 表示

我正在尝试获得网站网址的清晰表示,因此我可以将“html”放在

能够使用 xpath 等进行进一步处理。

当我尝试将 html 放入文档时,我得到的是:

org.xml.sax.SAXParseException : Elementtyp "link" muss mit dem entsprechenden Endtag "" bedet werden

这意味着,该“链接”必须关闭,本网站并非如此。

那么,可能是正确的方法吗?我应该“修复”文档并替换错误吗?

我尝试了 net.sourceforge.htmlcleaner 但它没有弄清楚如何“修复”错误。

有什么帮助吗?

问候,霍尔格

0 投票
1 回答
872 浏览

android - Android,正确使用 HTMLCleaner

我知道我们基本上应该尝试在这里做我们自己的事情,这不是提出请求的地方,但我真的很讨厌不得不从 Html 阅读东西,我真的不明白它的方式。

所以,我将奖励 150 分(不是说我很便宜,我只是不能做更多:()如果我能得到一些好的帮助,或者至少用一些示例代码指出正确的方向.

我想完成什么?

  • 我正在尝试从以下美国国家航空航天局页面获取最新消息。
  • 我打算在 ListView 上显示这条新闻,当然,ListView 一开始显示的内容很少,只有通过上面的页面可以获得的数据,这里有一个快速模型

就是这样,当用户单击一个链接时,他们将被带到显示完整文章的另一个片段,我会在以后弄清楚如何得到它,一旦我能完成这个。

因此,我尝试使用带有以下位的 HtmlCleaner:

但从那里开始,我几乎迷路了。这是XML输出顺便说一句。然而,我确实注意到每篇文章内容的某些标签层次结构上存在某种重复,它似乎是这样的:左用于图像和文章链接右用于文章标题和预览内容

类名层次结构

因此,如果有人愿意帮助我弄清楚如何以某种方式获取内容,我将不胜感激。

顺便说一句,这个项目是为了教育目的,作为 2013 年 NASA 国际空间应用挑战赛的一部分,更多信息在这里

作为奖励问题,相同的链接包含当前、未来和过去探险的信息,包括当前成员,对于探险的每个成员,都有一个指向他们的简历页面的链接。

这些标签似乎不是重复的,但名称似乎是预设的和不变的,你有“tab1”、“tab2”和“tab3”,等等。

我想从中获得的是:

  • 远征号和日期。
  • 探险队成员
  • 链接到每个成员的生物。

再次感谢您的支持,如果有的话,我真的很感激。

0 投票
1 回答
1075 浏览

java - htmlcleaner 用标签解析

我尝试提取页面的某些部分。我使用解析器 HtmlCleaner,它会删除所有标签。是否有一些设置可以保存所有 html 标签?或者也许是更好的方法来提取这部分代码,使用其他东西?

我的代码:

感谢nikhil.thakkar!我通过 JSON 做到这一点。该代码可能会帮助某人:

0 投票
1 回答
965 浏览

java - Java - 转换 Html 特殊字符的问题

我正在尝试通过将 Xpath 与 JAVA 结合使用来解析 HTML 页面。这是我的代码:

我想我有使用 stringEscapeUtils 或 HtmlCleaner 的问题,因为在输出上,我看到了这个:

而不是那些字符:

例如,我有这个输入:

我的程序产生这个输出:

你能帮我解决这个问题吗?

谢谢。

0 投票
2 回答
782 浏览

java - Java - Html 特殊字符

我想对 HTML 文件发出一些 XPath 请求。这是我的代码:

我的 HTML 文件以 UTF-8 编码(如元标记中所写)。我的问题是输出。我明白了:

而不是这个,这是我想要的输出:

你有什么想法来解决这个问题吗?

谢谢。

0 投票
2 回答
1130 浏览

python - Python 正则表达式去除没有 href 属性的 html a 标签

我有一个用 lxml 的 Cleaner 清理过的字符串,所以所有链接现在都采用 Content 形式。现在我想去掉所有没有 href 属性的链接,例如

应该成为

相同的:

应该变成:

只是所有缺少 href 属性的链接。它不必是正则表达式,但由于 lxml 返回一个干净的标记结构,它应该是可能的。我需要的是一个去掉了这种非功能性 a 标签的源字符串。

0 投票
1 回答
1018 浏览

java - HTML Cleaner + XPath 在 Android 应用程序中不起作用

我正在构建一个简单的新闻阅读器应用程序,并且正在使用 HTMLCleaner 来检索和解析数据。我已经成功地使用 HTMLCleaner 的命令行版本和使用 xmllint 获得了我需要的数据,例如:

java -jar htmlcleaner-2.6.jar src=http://www.reuters.com/home nodebyxpath=//div[@id=\"topStory\"]

curl www.reuters.com | xmllint --html --xpath //div[@id='"topStory"'] -

两者都返回我想要的数据。然后,当我尝试在我的代码中使用 HTMLCleaner 发出这个请求时,我没有得到任何结果。更令人不安的是,即使是基本查询,比如//div在我的应用程序中只返回 8 个节点,而命令行报告 70+,这是正确的。

这是我现在拥有的代码。它在一个扩展的 Android 类中,AsyncTask因此它在后台执行。最终代码实际上会得到我需要的文本数据,但我很难让它返回结果。当我记录标题节点时,节点计数为零。

我已经尝试了各种方式来转义 xpath 查询字符串,但没有任何区别。HTMLCleaner 代码位于我项目的单独源文件夹中,并且(至少我认为)与我的应用程序的其余部分一起编译为 dalvik,因此不兼容的 jar 文件不应该是问题。

我试图转储 HTMLCleaner 文件,但它不适用于 LogCat,并且当我转储它时缺少很多页面标记,这让我认为 HTMLCleaner 解析不正确并丢弃了大部分页面,但那怎么可能命令行版本工作正常的情况?

此外,该应用程序不会崩溃,我没有记录任何异常。

任何帮助是极大的赞赏。谢谢你。

更新:我已将问题缩小到与 http 请求有关。如果我将 html 源作为资产加载,我会很清楚地得到我想要的东西,问题在于接收 http 请求。换句话说,使用lNode = cleaner.clean( getAssets().open("reuters.html") );效果很好。