0

我有一个已爬网页面,并且已将该页面的 html 检索到String对象中。

现在我想解析这个字符串并将所有已itemprop定义的标签提取到一个关联的数组中,例如

String[] itemprops;
itemprops['title'] = "Some title";
itemprops['description'] = "Some description";

我可以用正则表达式以某种方式做到这一点,还是有一些库可以做到这一点。

4

2 回答 2

3

看看JSoup。它是一个 HTML 抓取和解析库,正是您想要的。

在您的情况下,您可以执行以下操作:

Document doc = Jsoup.parse(HTMLString);
String title = doc.select("title").text();
String description = doc.select("meta[name=description]").attr("content");

select() 函数使用CSS 选择器来获取元素。

于 2013-08-06T16:41:04.577 回答
0

还要确保您使用的 html 遵循严格的语法。因为损坏的语法可能会导致解析异常或丢失数据。

于 2013-08-06T17:25:08.120 回答