“htmlcleaner”的相关标签问题

0 投票

2 回答

243 浏览

java - 带有简单 HTMLserializer 的 NullPointerException

我正在尝试从TagNode. 问题是，有一个内部异常阻止它工作。这是我的电话：

root 当然不为空，显然序列化器也不为空。

这是堆栈跟踪：

更新：我找到了一种解决方法，甚至没有使用 HtmlSerializer 或 TagNode （使用我已经成功提取的 html 和一些字符串命令）

2013-01-21T21:45:08.757

0 投票

2 回答

668 浏览

android - 如何在 htmlcleaner 或 jSoup 中的标签中提取文本

我是 Android 开发的新手，无法理解 HtmlCleaner 或 jSoup 基础知识。

我有一个页面，例如

如何提取<b>..</b>标签中的单词？

android htmlcleaner

2013-02-03T18:48:28.710

0 投票

2 回答

336 浏览

java - XPath 表达式，一个节点中的两个字符串

我下载了 html 表单，用 htmlCleaner 清理它。最初它看起来像这样（现在它的格式很好，但我不知道如何简单地展示它，我希望这已经足够了）：

是否有 XPath 表达式来提取“请填写您的用户名”和“原因”但在两个单独的字符串中？ 此外，htmlCleaner 不支持所有表达式，这里是 ->列表<- 可能的表达式。

谢谢

java android xpath htmlcleaner

2013-03-27T02:10:33.030

0 投票

2 回答

613 浏览

java - 如何从网站 url 获取干净的 xml 表示

我正在尝试获得网站网址的清晰表示，因此我可以将“html”放在

能够使用 xpath 等进行进一步处理。

当我尝试将 html 放入文档时，我得到的是：

org.xml.sax.SAXParseException : Elementtyp "link" muss mit dem entsprechenden Endtag "" bedet werden

这意味着，该“链接”必须关闭，本网站并非如此。

那么，可能是正确的方法吗？我应该“修复”文档并替换错误吗？

我尝试了 net.sourceforge.htmlcleaner 但它没有弄清楚如何“修复”错误。

有什么帮助吗？

问候，霍尔格

java xml dom sax htmlcleaner

2013-04-11T09:10:19.503

0 投票

1 回答

872 浏览

android - Android，正确使用 HTMLCleaner

我知道我们基本上应该尝试在这里做我们自己的事情，这不是提出请求的地方，但我真的很讨厌不得不从 Html 阅读东西，我真的不明白它的方式。

所以，我将奖励 150 分（不是说我很便宜，我只是不能做更多:(）如果我能得到一些好的帮助，或者至少用一些示例代码指出正确的方向.

我想完成什么？

我正在尝试从以下美国国家航空航天局页面获取最新消息。
我打算在 ListView 上显示这条新闻，当然，ListView 一开始显示的内容很少，只有通过上面的页面可以获得的数据，这里有一个快速模型。

就是这样，当用户单击一个链接时，他们将被带到显示完整文章的另一个片段，我会在以后弄清楚如何得到它，一旦我能完成这个。

因此，我尝试使用带有以下位的 HtmlCleaner：

但从那里开始，我几乎迷路了。这是XML输出顺便说一句。然而，我确实注意到每篇文章内容的某些标签层次结构上存在某种重复，它似乎是这样的：左用于图像和文章链接，右用于文章标题和预览内容

类名层次结构

因此，如果有人愿意帮助我弄清楚如何以某种方式获取内容，我将不胜感激。

顺便说一句，这个项目是为了教育目的，作为 2013 年 NASA 国际空间应用挑战赛的一部分，更多信息在这里。

作为奖励问题，相同的链接包含当前、未来和过去探险的信息，包括当前成员，对于探险的每个成员，都有一个指向他们的简历页面的链接。

这些标签似乎不是重复的，但名称似乎是预设的和不变的，你有“tab1”、“tab2”和“tab3”，等等。

我想从中获得的是：

远征号和日期。
探险队成员
链接到每个成员的生物。

再次感谢您的支持，如果有的话，我真的很感激。

android html-parsing htmlcleaner

2013-04-19T21:09:24.547

0 投票

1 回答

1075 浏览

java - htmlcleaner 用标签解析

我尝试提取页面的某些部分。我使用解析器 HtmlCleaner，它会删除所有标签。是否有一些设置可以保存所有 html 标签？或者也许是更好的方法来提取这部分代码，使用其他东西？

我的代码：

感谢nikhil.thakkar！我通过 JSON 做到这一点。该代码可能会帮助某人：

java android html-parsing htmlcleaner

2013-05-19T21:18:28.860

0 投票

1 回答

965 浏览

java - Java - 转换 Html 特殊字符的问题

我正在尝试通过将 Xpath 与 JAVA 结合使用来解析 HTML 页面。这是我的代码：

我想我有使用 stringEscapeUtils 或 HtmlCleaner 的问题，因为在输出上，我看到了这个：

而不是那些字符：

例如，我有这个输入：

我的程序产生这个输出：

你能帮我解决这个问题吗？

谢谢。

java xpath htmlcleaner

2013-06-07T12:53:21.323

0 投票

2 回答

782 浏览

java - Java - Html 特殊字符

我想对 HTML 文件发出一些 XPath 请求。这是我的代码：

我的 HTML 文件以 UTF-8 编码（如元标记中所写）。我的问题是输出。我明白了：

而不是这个，这是我想要的输出：

你有什么想法来解决这个问题吗？

谢谢。

java html xpath utf-8 htmlcleaner

2013-06-10T07:53:11.133

0 投票

2 回答

1130 浏览

python - Python 正则表达式去除没有 href 属性的 html a 标签

我有一个用 lxml 的 Cleaner 清理过的字符串，所以所有链接现在都采用 Content 形式。现在我想去掉所有没有 href 属性的链接，例如

应该成为

相同的：

应该变成：

只是所有缺少 href 属性的链接。它不必是正则表达式，但由于 lxml 返回一个干净的标记结构，它应该是可能的。我需要的是一个去掉了这种非功能性 a 标签的源字符串。

python html regex strip htmlcleaner

2013-06-21T06:10:26.760

0 投票

1 回答

1018 浏览

java - HTML Cleaner + XPath 在 Android 应用程序中不起作用

我正在构建一个简单的新闻阅读器应用程序，并且正在使用 HTMLCleaner 来检索和解析数据。我已经成功地使用 HTMLCleaner 的命令行版本和使用 xmllint 获得了我需要的数据，例如：

java -jar htmlcleaner-2.6.jar src=http://www.reuters.com/home nodebyxpath=//div[@id=\"topStory\"]

和

curl www.reuters.com | xmllint --html --xpath //div[@id='"topStory"'] -

两者都返回我想要的数据。然后，当我尝试在我的代码中使用 HTMLCleaner 发出这个请求时，我没有得到任何结果。更令人不安的是，即使是基本查询，比如//div在我的应用程序中只返回 8 个节点，而命令行报告 70+，这是正确的。

这是我现在拥有的代码。它在一个扩展的 Android 类中，AsyncTask因此它在后台执行。最终代码实际上会得到我需要的文本数据，但我很难让它返回结果。当我记录标题节点时，节点计数为零。

我已经尝试了各种方式来转义 xpath 查询字符串，但没有任何区别。HTMLCleaner 代码位于我项目的单独源文件夹中，并且（至少我认为）与我的应用程序的其余部分一起编译为 dalvik，因此不兼容的 jar 文件不应该是问题。

我试图转储 HTMLCleaner 文件，但它不适用于 LogCat，并且当我转储它时缺少很多页面标记，这让我认为 HTMLCleaner 解析不正确并丢弃了大部分页面，但那怎么可能命令行版本工作正常的情况？

此外，该应用程序不会崩溃，我没有记录任何异常。

任何帮助是极大的赞赏。谢谢你。

更新：我已将问题缩小到与 http 请求有关。如果我将 html 源作为资产加载，我会很清楚地得到我想要的东西，问题在于接收 http 请求。换句话说，使用lNode = cleaner.clean( getAssets().open("reuters.html") );效果很好。

java android http xpath htmlcleaner

2013-08-11T03:03:33.613

问题标签 [htmlcleaner]

Reference