regex - regex101.com 任务 8 从字符串中去除所有 HTML 标记

Question

我正在参加 regex101.com 测验，并被困在任务 8 上。

请求：从字符串中剥离所有 HTML 标记。HTML 标记包含在 < 和 > 中。

我试过了，</?\w*+\s?/?>，但它说

“测试 6 of 13 失败：您过度使用了贪婪的量词。例如，在字符串“ace”中，当您应该返回“ace”时，您却返回了“ae”。”

但是，http://rubular.com/r/CD2zJjSFgs似乎有效。如何防止它变得贪婪？

score 1 · Accepted Answer

1

使用补充字符类：

<[^>]+>

于 2013-01-21T01:39:10.883 回答

score 1 · Accepted Answer

我自己尝试了这个网站，起初它非常糟糕，有 4-5 个任务，测试用例中有错误，但我给管理员发了电子邮件，他修复了所有问题。目前，我已经完成了所有可用的任务——这意味着所有的任务都是可行的。唯一可能的错误是测试用例太窄以至于不太通用的正则表达式可以通过，但这与手头的问题没有任何关系。

@willOEM 和 @fge 的答案，甚至你的答案在测试用例 8 （由于空标签而在测试用例 9 处被阻止，但空标签是否真的需要删除是有争议的）或测试用例 9（由于附加要求而在测试用例 10 处被阻止），如果g指定了标志。没有它，您只会在测试用例 6 中删除一个标签。

score 0 · Accepted Answer

0

它会认为这不那么贪婪吗？

<.+?>

于 2013-01-21T01:44:44.650 回答

3 回答 3