我正在尝试解析网页,但是当我想在页面中获取一段文本时。当我调用 Jsoup.parse() 和 Jsoup.connect().get() 方法时,Jsoup 给我一个错误的文档。
这是网页和我的代码的一部分。doc var 有一个错误的 DOM。
Document doc1 = Jsoup.parse("<p class=\"texto\"><p>El concurso fotográfico internacional <em>Earth and Sky Photo Contest</em> ya tiene <a href=\"http://www.twanight.org/newTWAN/index.asp\" target=\"_blank\">ganadores</a> en su tercera edición. Bajo el tema “La Importancia del cielo oscuro”, las fotos galardonadas este año son aquellas que mejor transmiten la belleza de un cielo estrellado y el problema de la contaminación lumínica. Como recuerdan los organizadores, hoy día el exceso de luz artificial en las ciudades hace que las estrellas desaparezcan del cielo urbano. Esta foto del cometa Lovejoy sobre Australia, de Jia Hao, se hizo con el primer premio en la categoría \"Belleza del Cielo Nocturno\".</p></p>");
String summary = doc1.select("p.texto p").text();
doc1 变量结果为:
<html>
<head></head>
<body>
<p class="texto"></p>
<p>El concurso fotográfico internacional <em>Earth and Sky Photo Contest</em> ya tiene <a href="http://www.twanight.org/newTWAN/index.asp" target="_blank">ganadores</a> en su tercera edición. Bajo el tema “La Importancia del cielo oscuro”, las fotos galardonadas este año son aquellas que mejor transmiten la belleza de un cielo estrellado y el problema de la contaminación lumínica. Como recuerdan los organizadores, hoy día el exceso de luz artificial en las ciudades hace que las estrellas desaparezcan del cielo urbano. Esta foto del cometa Lovejoy sobre Australia, de Jia Hao, se hizo con el primer premio en la categoría "Belleza del Cielo Nocturno".</p>
<p></p>
</body>
</html>
我做错什么了吗?