我最近在 phpbb2 的 bbcode.php 上编辑了一些正则表达式,我想知道它是否会带来安全问题(主要是从 href 注入脚本(如果可能的话))。
我只编辑了 [url]、[url=] 和我新创建的 [url=""] bbcode 标签。
他们的原始正则表达式(日期为 2008 年)不允许在 url 值中使用“无效”字符,例如括号或空格(某些 Wikipedia 页面和文件托管服务的 URL 需要这些字符),因此而不是编码 URL 的特殊其他人建议的字符,我只是编辑了正则表达式以允许协议中的字母数字字符,并且基本上是域/url地址的其余部分中的任何字符。
phpbb2 的 bbencode_second_pass 函数中的新正则表达式($text = post's text):
// matches a [url]xxxx://www.phpbb.com[/url] code..
$patterns[] = "#\[url\]([\w]+?://.*?)\[/url\]#is";
$replacements[] = $bbcode_tpl['url1'];
// [url]www.phpbb.com[/url] code.. (no xxxx:// prefix).
$patterns[] = "#\[url\]((www|ftp)\..*?)\[/url\]#is";
$replacements[] = $bbcode_tpl['url2'];
// [url=xxxx://www.phpbb.com]phpBB[/url] code..
$patterns[] = "#\[url=([\w]+?://.*?)\]([^?\n\r\t].*?)\[/url\]#is";
$replacements[] = $bbcode_tpl['url3'];
// [url=www.phpbb.com]phpBB[/url] code.. (no xxxx:// prefix).
$patterns[] = "#\[url=((www|ftp)\..*?)\]([^?\n\r\t].*?)\[/url\]#is";
$replacements[] = $bbcode_tpl['url4'];
// [url="xxxx://www.phpbb.com"]phpBB[/url] code..
$patterns[] = "#\[url="([\w]+?://.*?)"\]([^?\n\r\t].*?)\[/url\]#is"; //closes on first "]
//$patterns[] = "#\[url="([\w]+?://.*?)"\](?![\w\n\s]*"\])([^?\n\r\t].*?)\[/url\]#is"; //closes on last "] //discarded, ambigous
$replacements[] = $bbcode_tpl['url3'];
// [url="www.phpbb.com"]phpBB[/url] code.. (no xxxx:// prefix).
$patterns[] = "#\[url="((www|ftp)\..*?)"\]([^?\n\r\t].*?)\[/url\]#is";
$replacements[] = $bbcode_tpl['url4'];
// [email]user@domain.tld[/email] code..
$patterns[] = "#\[email\]([a-z0-9&\-_.]+?@[\w\-]+\.([\w\-\.]+\.)?[\w]+)\[/email\]#si";
$replacements[] = $bbcode_tpl['email'];
$text = preg_replace($patterns, $replacements, $text);
// Remove our padding from the string..
$text = substr($text, 1);
return $text;
和未经编辑的 phpbb2 声明:
$bbcode_tpl['url1'] = str_replace('{URL}', '\\1', $bbcode_tpl['url']);
$bbcode_tpl['url1'] = str_replace('{DESCRIPTION}', '\\1', $bbcode_tpl['url1']);
$bbcode_tpl['url2'] = str_replace('{URL}', 'http://\\1', $bbcode_tpl['url']);
$bbcode_tpl['url2'] = str_replace('{DESCRIPTION}', '\\1', $bbcode_tpl['url2']);
$bbcode_tpl['url3'] = str_replace('{URL}', '\\1', $bbcode_tpl['url']);
$bbcode_tpl['url3'] = str_replace('{DESCRIPTION}', '\\2', $bbcode_tpl['url3']);
$bbcode_tpl['url4'] = str_replace('{URL}', 'http://\\1', $bbcode_tpl['url']);
$bbcode_tpl['url4'] = str_replace('{DESCRIPTION}', '\\3', $bbcode_tpl['url4']);
到目前为止,这在我的调试中工作得很好,现在我想问一下,通过允许将任何字符放置在 A 标签的 href 属性中,我是否会让我的用户或我自己受到任何黑客攻击?
说,我测试了 javascript URI hack (javascript:),即使在 Internet Explorer 上它似乎也不起作用,而且我不知道通过 A 标签的 href 属性注入脚本的任何方式,会有允许我的用户在标签的href 中键入他们喜欢的任何内容(只要有一个有效的字母数字协议,例如*:// 或www. 将在其前面放置一个http://)有什么风险吗?
请注意,我不考虑链接到恶意网站,我想知道黑客是否能够通过标签的 href 注入脚本/cookies/任何内容,而无需用户单击它!
现在,让 href 属性在不点击其标签的情况下运行任何东西听起来有点多余,但无论如何,黑客有没有办法通过 href 属性在文档中注入恶意代码/javascript?