为 Web 应用程序编写一个全球化模块,我需要一个正则表达式来用另一个词(翻译)替换一个词的所有实例——除了在 URL/URI 中找到的词。
编辑:我忘了提到我正在使用 Ruby,所以我不能使用“Lookbehind”
代码:
# From RFC 3986 Appendix B, with these modifications:
# o Spaces disallowed
# o All groups non-matching, except for added outermost group
# o Not anchored
# o Scheme required
# o Authority required
URI_REGEX = %r"((?:(?:[^ :/?#]+):)(?://(?:[^ /?#]*))(?:[^ ?#]*)(?:\?(?:[^ #]*))?(?:#(?:[^ ]*))?)"
def replace_except_uris(text, old, new)
text.split(URI_REGEX).collect do |s|
if s =~ URI_REGEX
s
else
s.gsub(old, new)
end
end.join
end
text = <<END
stack http://www.stackoverflow.com stack
stack http://www.somewhere.come/stack?stack=stack#stack stack
END
puts replace_except_uris(text, /stack/, 'LINKED-LIST')
# => LINKED-LIST http://www.stackoverflow.com LINKED-LIST
# => LINKED-LIST http://www.somewhere.come/stack?stack=stack#stack LINKED-LIST
您是否尝试过将文本拆分为单词并迭代单词?然后你可以检查每个单词,确定它是否是一个 URI,如果不是,就翻译它。
你可以使用类似的东西
(?<!://[^ ]*)\bfoo\b
但这可能并不完美,它只是看起来该单词没有出现在单词之前没有://
某处的单个非空白字符串中。
PS Home:\> "foo foobar http://foo_bar/baz?gak=foobar baz foo" -replace '(?<!://[^ ]*)\bfoo\b', 'FOO'
FOO foobar http://foo_bar/baz?gak=foobar baz FOO