我正在尝试开发一个应用程序来从http://xxx.xxx.com/xxxxxblog获取 RSS 提要。有人可以帮助我进行 HTML 解析以获取提要吗?
user1915368
问问题
720 次
3 回答
0
请试试
使用此示例代码创建实际上可以处理命名空间扩展的 RSS 阅读器
此代码基础的库是https://github.com/thebuzzmedia/simple-java-xml-parser。
它在 Android 中也能很好地工作。
于 2013-03-05T05:45:35.987 回答
0
此网页上的提要似乎由<dc:subject>
标记清楚地分隔。由于您只需要获取提要,因此最短的方法可能会更好地使用正则表达式获取提要边界,该正则表达式也将捕获标题(类似于<dc:subject>(.*?)</dc:subject>
)。逐行阅读,一旦您检测到表达式 - 这是提要的开始。也许这在哲学上不是最正确的方法,我们应该解析所有 HTML,但为什么要运行不必要的代码......
也不乏 Java 内置解析器,从 Java 的内置 HTML 解析器开始,一直到各种替代库,在某些情况下可能更适合,有些人还建议使用 XML 解析器 (XPath)。这里讨论了各种解决方案。
于 2012-12-31T12:45:18.207 回答
0
您可以尝试 JSoup 来解析 HTML。
它使用起来非常简单,并且有据可查,解析页面应该不会有太多麻烦。
你可以从这个页面找到如何做到这一点
http://jsoup.org/cookbook/extracting-data/selector-syntax
它使用不同的 html 标签来解析该标签之间的数据。
于 2012-12-31T11:50:08.957 回答