0

我有博客文章(示例 1示例 2)。解析 HTML 和检测作者、标题、日期、文章内容、评论(分别)的最佳方法是什么。应跳过所有其他内容。

4

2 回答 2

0

您可能无法获得所需的一切,但我认为Boilerpipe值得一看。

于 2013-05-29T22:17:45.080 回答
0

假设您的博客站点有一个 RSS 提要,您可以使用 Java 的 SAX 解析器来快速浏览 XML

http://download.oracle.com/javase/1.4.2/docs/api/javax/xml/parsers/SAXParser.html

这是某人使用 SAX Parser 解析 RSS 的示例

http://javabeanz.wordpress.com/2007/07/25/rss-parser-sax/

于 2011-08-23T20:07:50.623 回答