我正在尝试使用 xPath 遍历报纸的代码(为了练习)现在我想获得主要文章,它是图片和我得到的小描述。但到目前为止,我对 xPath 的技术还不是很熟练,也无法进行详细的描述。
使用此代码:
<div class="margenesPortlet">
<div class="fondoprincipal">
<div class="margenesPortlet">
<a href='notas/n1092329.htm' ><img id="LinkNotaA1_Foto" src="http://i.oem.com.mx/5cfaf266-bb93-436c-82bc-b60a78d21fb6.jpg" height="250" width="300" border="0" /></a>
<div class="piefoto_esto">Un tubo de 12 pulgadas al lado de la Vialidad Sacramento que provocó el corte del servicio durante toda la mañana y hasta alrededor de las cuatro de la tarde. Foto: El Heraldo de Chihuahua</div>
<div class="cabezaprincesto"><a href='notas/n1092329.htm' class='cabezaprincesto' >Sin agua 8 mil usuarios</a></div>
<div class="resumenesto"><a href='notas/n1092329.htm' class='resumenesto' >La ruptura de una línea en el tanque de rebombeo de agua Sacramento dejó sin servicio a ocho mil usuarios, en once colonias del sur de la ciudad. </a></div>
</div>
</div>
</div>
我想得到图片(有或没有标题),然后是文章的标题。这三件事我可以通过使用得到:
//div[@class='fondoprincipal'] <-- 给我主要图片和标题
//a[@class='cabezaprincesto']/text() <-- 给我文章的标题
但是我无法获得带有class =“resumenesto”的div的小描述,我没有尝试通过该id获取任何东西,因为相同的id在HTML的其余部分反复使用,所以它返回很多额外的项目。
我怎样才能得到这个特定的?然后你们中的任何人会推荐我一种将其解析到另一个网页的好方法吗?我在想也许 php 使用这些值编写一些 html,但我不确定真的......
编辑
我所说的“这个特定的”的意思是我如何获得这个 div class="resumenesto",它位于 div class="fondoprincipal" 中......
编辑 2
谢谢,现在 xPath Traversing 更加清晰了。但是关于我的第二个问题,你们中有人会推荐我一种将其解析到另一个网页的好方法吗?我在想也许 php 使用这些值编写一些 html,但我不确定真的..