html - 用 MATLAB 忽略一些字符串

Question

我想提取一些包含在 HTML 标签中的文本。例如：

<html><body>this is a warning message. wrongs values</body></html>

结果应该通过忽略所有 HTML 标记来获取消息。

有人有什么建议吗？

score 1 · Accepted Answer

你想要这样的东西：

 a = sscanf('<html><body>this is a warning message. wrongs values</body></html>','<html><body>%[a-zA-Z., ]</body></html>')

score 1 · Accepted Answer

您可以使用正则表达式去除 HTML 标签：

str = '<html><body>this is a warning message. wrongs values</body></html>';
str2 = regexprep(str, '<[^>]*>', '')

2 回答 2