我的工具获取纯文本,并通过从标签中的文本替换术语来逐渐生成“标签”。由于存在一些复合术语,唯一的方法(我认为)是使用 ReplaceAll regex。
感谢stackoverflow的朋友,在我的最后一个问题中,我的应用程序得到了一个很好的正则表达式,但经过测试,出现了一个新的需求:
“一个正则表达式,用于替换标签之外和另一个单词之外的所有单词”
原始代码:
String str = "world worldwide <a href=\"world\">my world</world>underworld world";
str = str.replaceAll("\\bworld\\b(?![^<>]*+>)", "repl");
System.out.println(str);
我现在只需要替换“world”(当然标签之外)而不是“underworld”或“worldwide”
预期结果:
repl worldwide <a href="world">my world</world>underworld repl