0

I need to remove the following string content from a HTML page

<a rel="nofollow" href="http://feeds.wordpress.com/1.0/gocomments/terminaldeembarque.wordpress.com/1847/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/comments/terminaldeembarque.wordpress.com/2044/"></a>

Note that only the numbers "2044" and "1847" are variables, can I do that with a regex? Can anyone help me with that?

Thanks.

4

2 回答 2

1

这取决于您是要删除所有锚标签还是仅删除特定标签。您可以将整个字符串放入正则表达式(不要忘记转义所有内容),而不是数字“2044”和“1847”,使用 \d{0,} 或 \d+ ,如下所示:

...wordpress.com/\d+/

或者

...wordpress.com/\d{0,}/

将 {0,} 中的零更改为匹配所需的最少位数。但请注意,此正则表达式非常具体,如果一个字符与您提供的字符不同,它将中断。例如,如果省略 rel 属性或 html 结构中的任何其他更改。

最终正则表达式:

<a rel="nofollow" href="http://feeds\.wordpress\.com/1\.0/gocomments/terminaldeembarque\.wordpress\.com/\d{0,}/"><img alt="" border="0" src="http://feeds\.wordpress\.com/1\.0/comments/terminaldeembarque\.wordpress\.com/\d{0,}/"></a>
于 2013-04-30T01:48:05.353 回答
1

使用这个正则表达式:

"a rel=\"nofollow\" href=\"http://feeds.wordpress.com/1.0/gocomments/terminaldeembarque.wordpress.com/[0-9]*/\"><img alt=\"\" border=\"0\" src=\"http://feeds.wordpress.com/1.0/comments/terminaldeembarque.wordpress.com/[0-9]*/\"></a>"
于 2013-04-30T01:40:52.430 回答