我正在开发一种一次性转换工具,用于将数十万个用户文件从一个托管环境迁移到另一个托管环境。作为迁移的一部分,我正在清理文件名以使其对 URL 安全。我的 PHP 脚本可以做到这一点(不能声称它是最优雅、最正确或最优化的代码,但它可以满足我的需要)。文件扩展名是单独处理的,所以在这里它们不是问题。
<?php
$fileName = $_POST['name'];
$swap_chars = array('%20'=>'-', '&'=>'and', '@'=>'at', '='=>'eq', '#'=>'num', '%'=>'pct', '+'=>'-', ' '=>'-', ','=>'-', '/'=>'-', ':'=>'-', ';'=>'-', '\\'=>'-', '|'=>'-', '~'=>'-', 'Š'=>'S', 'š'=>'s', 'Ð'=>'Dj', 'Ž'=>'Z', 'ž'=>'z', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'ss', 'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ü'=>'u', '†'=>'t', '°'=>'deg', '¢'=>'c', '£'=>'L', '§'=>'S', '•'=>'o', '¶'=>'P', '®'=>'R', '©'=>'C', '™'=>'TM', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 'ÿ'=>'y', 'ƒ'=>'f');
$fileName = str_replace('\\\'', '', $fileName); // strip escaped apostrophes
$fileName = str_replace('\\"', '', $fileName); // strip escaped quotes
$fileName = strtr($fileName, $swap_chars); // swap special characters
$fileName = preg_replace("/[^0-9a-zA-Z._-]/","",$fileName); // strip remaining bad characters
$fileName = preg_replace("/--+/","-",$fileName); // trim repeating dashes
$fileName = preg_replace("/\.\.+/",".",$fileName); // trim repeating periods
$fileName = preg_replace("/__+/","_",$fileName); // trim repeating underscores
$fileName = trim($fileName, '.-_'); // remove leading or trailing punctuation
$fileName = substr($fileName, 0, 62); // truncate long filenames
echo $fileName;
?>
该工具的大部分内容也在 JavaScript 中,如果可能的话,我想在那里进行清理。我想我可能可以text.replace(old,new)
用来复制str_replace()
和preg_replace()
PHP 函数。
但是,PHPstrtr()
和trim()
函数做了一些非常酷的事情(strtr 可以使用关联数组进行匹配/替换;修剪去除多个指定字符),我还没有找到任何 JS 等价物。
那么,有没有一种我忽略的更简单的方法,或者我应该深入研究并编写自己的函数?或者,PHP.js 是一个可行的选择吗?
更新/解决方案:
使用来自@Matt Winckler 的非常快速和有用的答案,我设法用 JavaScript 重写了我的清理代码。以下工作(至少对于我的用例)与下面接受的答案中提供的代码以及基于上面 PHP 数组的 JavaScript 对象“swapchars”一起工作。
function cleanname(name) {
name = name.replace('\'', ''); // strip escaped apostrophes
name = name.replace('\"', ''); // strip escaped quotes
name = name.replace('%20', '-'); // replace encoded spaces
name = strtr(name, swapchars); // swap special characters
name = name.replace(/[^0-9a-z_\.\-]/gi,''); // strip remaining bad characters
name = name.replace(/-+/g,'-'); // trim repeating dashes
name = name.replace(/\.+/g,'.'); // trim repeating periods
name = name.replace(/_+/g,'_'); // trim repeating underscores
name = trim(name, '.-_'); // remove leading or trailing punctuation
name = name.substr(0, 62); // truncate long names
return name;
}