可能重复:
R 正则表达式:http 匹配
我正在使用正则表达式从大量源代码中捕获 URL。
URL 遵循某种模式,格式如下:
- www.google.com/..../1-1,1"
- www.google.com/..../1-2,2"
- www.google.com/..../1-20,20"
到目前为止,我可以使用以下代码访问 url:
pattern = paste("1-", 1:20,",", 1:20, "\"", sep="")
这给了我一个向量:
- 1-1,1
- 1-2,2
- ......
- 1-20,20
然后我可以使用这些向量给我一个位置或源代码中的 URL。
例如,假设整个源代码很简单:“ http://www.google.com/word/1-1,1 >”
`regexpr("1-1,1", test1k, TRUE)`
给我:
[1] 28 attr(,"match.length") [1] 5
这意味着模式 1-1,1 从长度 28 开始。鉴于此信息,我将如何选择从“ http://ww ...”开始直到结束“1-1,1>”的整个 URL。
我想我要问的是,给位置 28,是否有一个函数可以向后选择最近的“http://”字符串(这标志着 URL 的开始)。同样,给定位置 28,有没有办法选择最近的“>”字符向前(这标志着 URL 的结尾)。