我有这个正则表达式来从文本中提取双字
/[A-Za-z]+\s[A-Za-z]+/g
而这个示例文本
Mary had a little lamb
我的输出是这个
[0] - Mary had; [1] - a little;
而我的预期输出是这样的:
[0] - Mary had; [1] - had a; [2] - a little; [3] - little lamb
我怎样才能实现这个输出?据我了解,搜索索引移动到第一个匹配项的末尾。我怎样才能把它移回一个字?
我有这个正则表达式来从文本中提取双字
/[A-Za-z]+\s[A-Za-z]+/g
而这个示例文本
Mary had a little lamb
我的输出是这个
[0] - Mary had; [1] - a little;
而我的预期输出是这样的:
[0] - Mary had; [1] - had a; [2] - a little; [3] - little lamb
我怎样才能实现这个输出?据我了解,搜索索引移动到第一个匹配项的末尾。我怎样才能把它移回一个字?
我使用了一个小技巧来使用这个replace
函数。由于该replace
函数循环匹配并允许我们指定一个函数,因此可能性是无限的。结果将在output
.
var output = [];
var str = "Mary had a little lamb";
str.replace(/[A-Za-z]+(?=(\s[A-Za-z]+))/g, function ($0, $1) {
output.push($0 + $1);
return $0; // Actually we don't care. You don't even need to return
});
由于输出包含输入字符串中的重叠部分,因此当我们使用前瞻 1匹配当前单词时,有必要不消耗下一个单词。
正则表达式的/[A-Za-z]+(?=(\s[A-Za-z]+))/g
作用与我上面所说的完全一样:它一次只会使用该[A-Za-z]+
部分(正则表达式的开头)的一个单词,并预测下一个单词(?=(\s[A-Za-z]+))
2,并捕获匹配的文本。
传递给函数的replace
函数将接收匹配的字符串作为第一个参数,并在后续参数中接收捕获的文本。(还有更多 - 检查文档- 我在这里不需要它们)。由于前瞻是零宽度(不消耗输入),因此整个匹配也方便地是第一个单词。前瞻中的捕获文本将进入第二个参数。
请注意,String.replace
函数会产生替换开销,因为根本不使用替换结果。如果这是不可接受的,您可以RegExp.exec
在循环中使用函数重写上面的代码:
var output = [];
var str = "Mary had a little lamb";
var re = /[A-Za-z]+(?=(\s[A-Za-z]+))/g;
var arr;
while ((arr = re.exec(str)) != null) {
output.push(arr[0] + arr[1]);
}
在其他支持可变宽度负向后看的正则表达式中,可以检索前一个单词,但 JavaScript 正则表达式不支持负向后看!。
(?=pattern)
是前瞻的语法。
String.match
不能在这里使用,因为它在g
使用标志时会忽略捕获组。捕获组在正则表达式中是必需的,因为我们需要环顾四周以避免消耗输入并匹配重叠文本。
它可以在没有正则表达式的情况下完成
"Mary had a little lamb".split(" ")
.map(function(item, idx, arr) {
if(idx < arr.length - 1){
return item + " " + arr[idx + 1];
}
}).filter(function(item) {return item;})
这是一个非正则表达式解决方案(这不是一个真正的常规问题)。
function pairs(str) {
var parts = str.split(" "), out = [];
for (var i=0; i < parts.length - 1; i++)
out.push([parts[i], parts[i+1]].join(' '));
return out;
}
传递你的字符串,你会得到一个数组。
旁注:如果您担心输入中的非单词(为正则表达式提供案例!),您可以在循环内和循环内parts[i]
运行测试。如果测试失败:不要将它们推到.parts[i+1]
for
out
您可能会喜欢的一种方式是:
var s = "Mary had a little lamb";
// Break on each word and loop
s.match(/\w+/g).map(function(w) {
// Get the word, a space and another word
return s.match(new RegExp(w + '\\s\\w+'));
// At this point, there is one "null" value (the last word), so filter it out
}).filter(Boolean)
// There, we have an array of matches -- we want the matched value, i.e. the first element
.map(Array.prototype.shift.call.bind(Array.prototype.shift));
如果您在控制台中运行它,您将看到["Mary had", "had a", "a little", "little lamb"]
.
通过这种方式,您可以保留原始的正则表达式,并且可以在其中执行您想要的其他内容。尽管周围有一些代码使它真正起作用。
顺便说一句,这段代码不是跨浏览器的。IE8及以下不支持以下功能:
但它们很容易调整。或者使用for
.
出于对“前瞻”概念的充分推崇,我仍然提出了一个pairwise
函数(demo),因为对字符流进行标记实际上是 Regex 的任务,而如何处理标记的决定取决于业务逻辑。至少,这是我的看法。
遗憾的是 Javascript 还没有成对出现,但这可以做到:
function pairwise(a, f) {
for (var i = 0; i < a.length - 1; i++) {
f(a[i], a[i + 1]);
}
}
var str = "Mary had a little lamb";
pairwise(str.match(/\w+/g), function(a, b) {
document.write("<br>"+a+" "+b);
});
开始了:
你仍然不知道正则表达式内部指针是如何工作的,所以我将通过一个小例子给你解释一下:
Mary had a little lamb
用这个正则表达式/[A-Za-z]+\s[A-Za-z]+/g
在这里,正则表达式的第一部分:[A-Za-z]+
将匹配Mary
,因此指针将位于y
Mary had a little lamb
^
在下一部分(\s[A-Za-z]+
)中,它将匹配一个空格,后跟另一个单词,所以......
Mary had a little lamb
^
指针将是单词had
结束的地方。所以这是你的问题,你不希望增加正则表达式的内部指针,这是如何解决的?环顾四周是你的朋友。使用环视(lookahead 和lookbehind),您可以在不增加正则表达式的主要内部指针的情况下浏览您的文本(它会为此使用另一个指针)。
所以最后,匹配你想要的正则表达式是:([A-Za-z]+(?=\s[A-Za-z]+))
解释:
唯一认为您不知道该正则表达式的是该(?=\s[A-Za-z]+)
部分,这意味着[A-Za-z]+
必须后跟一个单词,否则正则表达式将不匹配。这正是您似乎想要的,因为内部指针不会增加,并且会匹配除最后一个以外的所有单词,因为最后一个不会跟一个单词。
然后,一旦你有了它,你只需要替换你现在所做的一切。
这里有一个工作示例,DEMO