我正在开发 Ruby on Rails 2.3.8,并且我有一个网站,用户可以在其中输入帖子。他们每个人都有一个简短的描述,显示在主页上。该描述是从原始内容自动构建的,但只是被截断,因此最多可以达到 240 个字符。
问题是那些描述可能包含图像或视频,我不希望它们在我截断这些字符串时出现。我正在使用Hpricot
插件来解析 HTML,并使用以下正则表达式来解析图像:
body = Hpricot.parse(html_body)
body = body.to_s.gsub(/<img .*?>/, '')
这是删除图像,但有时它会留下一个字符串,例如它在图像之前的位置显示“image”或“img”。现在,例如,在我从描述中删除图像后,我看到剩余的松散“垃圾邮件”文本。也许正则表达式不正确。
有谁知道哪个是删除图像的正确正则表达式,还有来自 html 的视频?