我正在从不同的来源获取 RSS 提要。我收到了十几种不同类型的 RSS 输出。我正在使用 XML 解析器来解析/获取<item>
, <title>
, <link>
,<description>
标签。
获取每个项目的描述值后,我使用正则表达式解析描述字段以获取图像链接(如果有)和明文。以下正则表达式适用于 Yahoo/CNN 提要。
@"<p><a.+?><img src=\"(.+?)\".+?<\\/a>(.+?)<\\/p>" ;
但是在描述中仍然有一些不需要的字符(上面正则表达式中的第二个匹配项)。
在这里,我正在寻找一些建议,关于如何放入不同的正则表达式来评估 RSS 描述并获得“明文”和“图像链接”。同样,放置大量正则表达式并比较每个正则表达式是否成功会导致性能损失。
总而言之,我在这里看到了两个问题。
构造不同的正则表达式,将每个正则表达式应用于描述字段,检查成功并获取输出。(应用 4 或 5 个正则表达式,会出现性能损失)在这一步中,我试图将描述和图像链接分开。
上面得到的描述,仍然不是一个明文,需要删除很多其他额外的字符和标签。我在这里需要一个正则表达式,以删除所有那些多余的不必要的东西。已经这样做的人可以在这方面帮助我。