我想提取一些包含在 HTML 标签中的文本。例如:
<html><body>this is a warning message. wrongs values</body></html>
结果应该通过忽略所有 HTML 标记来获取消息。
有人有什么建议吗?
你想要这样的东西:
a = sscanf('<html><body>this is a warning message. wrongs values</body></html>','<html><body>%[a-zA-Z., ]</body></html>')
您可以使用正则表达式去除 HTML 标签:
str = '<html><body>this is a warning message. wrongs values</body></html>';
str2 = regexprep(str, '<[^>]*>', '')