我有一个网页,用户可以在其中以俄语 (UTF-8) 发表评论,如下所示:
Хорошо, четко , уверено!Удачи!(БОРИС)
一些用户为了好玩而“滥用”它,省略了单词之间的空格
НеСпитьсяЖукуНиЗимою,НиЛетом,лучшеПитатьсяСолнечнымСветом, лучшеСидетьЗаИгорнымСтолом,иНаслаждатьсяКаждымВистом, лучшеНоситьЗолотыеОдежды,искритьсяВсегда,неТеряяНадежды,лучшеПустьДругОстаетсяБезВзятки,ведьНевозможноЖукуЖитьБезЛапки!
这导致非常宽的 HTML 表格行,破坏了我的布局。
我试图通过尝试查找包含超过 60 个非空格字符的评论并在标点符号(如逗号)之后插入一个空格字符来对抗这些用户 - 使用这段 PHP 代码:
if (preg_match('/\S{60,}/u', $about) == 1) {
error_log('Splitting comment: ' . $about);
$about = preg_replace('/(\p{P}+\s*)/u', '$1 ', $about);
error_log('===Result comment: ' . $about);
}
然而这不起作用并且至少有2个问题
- 每个评论都被匹配,即使是顶部的简短评论
- \s* 不是贪心的,“逗号和空格”被“逗号空格”替换,原因很奇怪
这是我的日志文件的摘录:
[04-Jun-2012 09:50:10] Splitting comment: Хорошо, четко , уверено!Удачи!(БОРИС)
[04-Jun-2012 09:50:10] ===Result comment: Хорошо, четко , уверено! Удачи!( БОРИС)
[04-Jun-2012 09:50:10] Splitting comment: НеСпитьсяЖукуНиЗимою,НиЛетом,лучшеПитатьсяСолнечнымСветом,
лучшеСидетьЗаИгорнымСтолом,иНаслаждатьсяКаждымВистом, лучшеНоситьЗолотыеОдежды,искритьсяВсегда,неТеряяНадежды,лучшеПустьДругОстаетсяБезВзятки,ведьНевозможноЖукуЖитьБезЛапки!(nusja)
[04-Jun-2012 09:50:10] ===Result comment: НеСпитьсяЖукуНиЗимою, НиЛетом, лучшеПитатьсяСолнечнымСветом,
лучшеСидетьЗаИгорнымСтолом, иНаслаждатьсяКаждымВистом, лучшеНоситьЗолотыеОдежды, искритьсяВсегда, неТеряяНадежды, лучшеПустьДругОстаетсяБезВзятки, ведьНевозможноЖукуЖитьБезЛапки!( nusja)
我尝试将反斜杠加倍 - 这并没有改变任何东西。
我正在使用带有最新 CentOS Linux 5.x 和 6.x 的股票 PHP:
# php -v
PHP 5.3.3 (cli) (built: May 7 2012 17:58:11)
Copyright (c) 1997-2010 The PHP Group
Zend Engine v2.3.0, Copyright (c) 1998-2010 Zend Technologies