3

我正在开发 Ruby on Rails 2.3.8,并且我有一个网站,用户可以在其中输入帖子。他们每个人都有一个简短的描述,显示在主页上。该描述是从原始内容自动构建的,但只是被截断,因此最多可以达到 240 个字符。

问题是那些描述可能包含图像或视频,我不希望它们在我截断这些字符串时出现。我正在使用Hpricot插件来解析 HTML,并使用以下正则表达式来解析图像:

body = Hpricot.parse(html_body)
body = body.to_s.gsub(/<img .*?>/, '')

这是删除图像,但有时它会留下一个字符串,例如它在图像之前的位置显示“image”或“img”。现在,例如,在我从描述中删除图像后,我看到剩余的松散“垃圾邮件”文本。也许正则表达式不正确。

有谁知道哪个是删除图像的正确正则表达式,还有来自 html 的视频?

4

1 回答 1

1

看来你正在寻找它后面img空格

你不想要这个,这样你就可以抓住<img一切,但不包括>然后抓住>

很难说它是否在没有源输入的情况下工作。

<img([^>])+

注意:不适用于嵌套标签。

于 2010-11-30T13:39:45.803 回答