长版:
熟悉 RSS 系列标准化噩梦的人可能知道,如果“描述”元素仅包含纯文本或 html 或 xhtml,则 RSS 不会为您提供信息。
我目前使用 ROME-API 将各种 RSS 版本转换为 Atom 1.0。Rome-API 将愉快地解析 RSS,然后输出一个 Atom 提要。幸运的是,Atom 有一种方法可以将摘要声明为包含文本、html 或 xhtml。
例子。RSS:
<item>
<link>http://www.schwarzwaelder-bote.de/wm?catId=79039&artId=14737088&rss=true</link>
<title>Analyse: Winter reißt Löcher in Straßen und Kassen</title>
<description><img src="http://www.schwarzwaelder-bote.de/cms_images/swol/dpa-InfoLine_rs-images/20100306/1192a_24128948.thumbnail.jpg" alt="Schlagloch" title="" border="0">&nbsp;& ;nbsp;&nbsp;Berlin (dpa) - Von Schnee und Eis befreit sind Deutschlands Straßen, und jetzt geht es ans große Aufräumen....</description>
</item>
变成:原子:
<entry>
<title>Analyse: Winter reißt Löcher in Straßen und Kassen</title>
<link rel="alternate" href="http://www.schwarzwaelder-bote.de/wm?catId=79039&artId=14737088&rss=true" />
<author>
<name />
</author>
<id>http://www.schwarzwaelder-bote.de/wm?catId=79039&artId=14737088&rss=true</id>
<summary type="text"><img src="http://www.schwarzwaelder-bote.de/cms_images/swol/dpa-InfoLine_rs-images/20100306/1192a_24128948.thumbnail.jpg" alt="Schlagloch" title="" border="0">&nbs p;&nbsp;&nbsp;Berlin (dpa) - Von Schnee und Eis befreit sind Deutschlands Straßen, und jetzt geht es ans große Aufräumen....</summary>
</entry>
问题是type="text"
它告诉像 firefox 这样的提要阅读器将摘要的内容呈现为文本——> 你可以看到所有的 html 源代码。
简短版:如何检测描述元素的内容是 (X)HTML,以便我可以设置正确的类型属性?