我想解析一个HTML
文件并存储粗体文本(在<b>
标签内)。一种解决方案是逐行读取文件并拆分或使用RegEx
. 这意味着我应该将整个页面存储在一个String
变量中?如果我不将它保存在变量中,那么我不能保证标签的开头和结尾在同一行。
你建议什么解决方案?
使用JSoup解析内容
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
这是我的大学项目
利用HTMLEditorKit.ParserCallback