ruby-on-rails - 以编程方式从 html 中删除图像和视频

Question

我正在开发 Ruby on Rails 2.3.8，并且我有一个网站，用户可以在其中输入帖子。他们每个人都有一个简短的描述，显示在主页上。该描述是从原始内容自动构建的，但只是被截断，因此最多可以达到 240 个字符。

问题是那些描述可能包含图像或视频，我不希望它们在我截断这些字符串时出现。我正在使用Hpricot插件来解析 HTML，并使用以下正则表达式来解析图像：

body = Hpricot.parse(html_body)
body = body.to_s.gsub(/<img .*?>/, '')

这是删除图像，但有时它会留下一个字符串，例如它在图像之前的位置显示“image”或“img”。现在，例如，在我从描述中删除图像后，我看到剩余的松散“垃圾邮件”文本。也许正则表达式不正确。

有谁知道哪个是删除图像的正确正则表达式，还有来自 html 的视频？

score 1 · Accepted Answer

看来你正在寻找它后面img的空格。

你不想要这个，这样你就可以抓住<img一切，但不包括>然后抓住>？

很难说它是否在没有源输入的情况下工作。

<img([^>])+

注意：不适用于嵌套标签。

1 回答 1