我正在尝试解析一个流行的德国新闻网站(taz.de)的某个 rss 提要。不幸的是,他们的描述标签不仅包含纯文本,还包含任何内容,包括图片、链接等。
<description>
<![CDATA[<a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/"><img align="left" style="margin-right:5px;" src="/uploads/images/152x76/18032013_Bush_Irakkrieg_rtr.jpg" border="0" width="152" height="76" /></a>Das Land ist von einem funktionierenden Rechtsstaat weit entfernt. Zehn Jahre nach dem Irakkrieg zeigt sich eine niederschmetternde Bilanz. <a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/">mehr...</a>]]>
</description>
我唯一感兴趣的是文本Das Land ist von einem funktionierenden Rechtsstaat weit entfernt. Zehn Jahre nach dem Irakkrieg zeigt sich eine niederschmetternde Bilanz.
我将如何以有效的方式做到这一点(没有可怕的字符串操作)?由于没有属性名称,我想我搞砸了?我正在使用 RaptureXML,但如果有更好的库来解决这个问题,我会切换 xml 解析器。