0

任何人都可以帮助我阅读标签内的页面源代码。

我已经尝试过使用 htmlUnit 和 jsoup ......但它只返回里面的内容和标签。任何回应都将受到高度赞赏。

4

2 回答 2

0

用于element.html()读取 HTML 而不是JSoup中标签本身的包含

例如:

String html = "<p>An </p><form action="SOMESERVLET"><b>example</b></form> ";
Document doc = Jsoup.parse(html);
String htmlContent = doc.select("form").first().html();

对于您的情况

Document doc = Jsoup.connect("example.com").get(); 
Iterator<Element> itr = doc.select("form").iterator()
while(itr.hasNext()){ 
   Element element = itr.next();
   System.out.println(element.html());
}
于 2012-06-13T10:44:04.140 回答
0

一步步

  • 从 url 读取 html 到字符串
  • 找到<form>它的标签start index
  • 找到</form>它的标签last index,*如果这个标签不存在,最后一个索引是长度*
  • 并且只是substring从索引startend

这是简单的算法,但我认为有很多工具可以帮助你!!!

于 2012-06-13T10:46:32.993 回答