Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个已爬网页面,并且已将该页面的 html 检索到String对象中。
String
现在我想解析这个字符串并将所有已itemprop定义的标签提取到一个关联的数组中,例如
itemprop
String[] itemprops; itemprops['title'] = "Some title"; itemprops['description'] = "Some description";
我可以用正则表达式以某种方式做到这一点,还是有一些库可以做到这一点。
看看JSoup。它是一个 HTML 抓取和解析库,正是您想要的。
在您的情况下,您可以执行以下操作:
Document doc = Jsoup.parse(HTMLString); String title = doc.select("title").text(); String description = doc.select("meta[name=description]").attr("content");
select() 函数使用CSS 选择器来获取元素。
还要确保您使用的 html 遵循严格的语法。因为损坏的语法可能会导致解析异常或丢失数据。