0

我正在尝试开发一个应用程序来从http://xxx.xxx.com/xxxxxblog获取 RSS 提要。有人可以帮助我进行 HTML 解析以获取提要吗?

4

3 回答 3

0

请试试

使用此示例代码创建实际上可以处理命名空间扩展的 RSS 阅读器

https://github.com/dodyg/AndroidRivers/blob/master/src/com/silverkeytech/android_rivers/xml/RssParser.kt

此代码基础的库是https://github.com/thebuzzmedia/simple-java-xml-parser

它在 Android 中也能很好地工作。

于 2013-03-05T05:45:35.987 回答
0

此网页上的提要似乎由<dc:subject>标记清楚地分隔。由于您只需要获取提要,因此最短的方法可能会更好地使用正则表达式获取提要边界,该正则表达式也将捕获标题(类似于<dc:subject>(.*?)</dc:subject>)。逐行阅读,一旦您检测到表达式 - 这是提要的开始。也许这在哲学上不是最正确的方法,我们应该解析所有 HTML,但为什么要运行不必要的代码......

也不乏 Java 内置解析器,从 Java 的内置 HTML 解析器开始,一直到各种替代库,在某些情况下可能更适合,有些人还建议使用 XML 解析器 (XPath)。这里讨论了各种解决方案。

于 2012-12-31T12:45:18.207 回答
0

您可以尝试 JSoup 来解析 HTML。

它使用起来非常简单,并且有据可查,解析页面应该不会有太多麻烦。

你可以从这个页面找到如何做到这一点

http://jsoup.org/cookbook/extracting-data/selector-syntax

它使用不同的 html 标签来解析该标签之间的数据。

于 2012-12-31T11:50:08.957 回答