我发现 PHP 函数 basename() 以及 pathinfo() 对多字节 utf-8 名称有一个奇怪的行为。他们删除所有非拉丁字符,直到第一个拉丁字符或标点符号。但是,在此之后,会保留后续的非拉丁字符。
basename("àxà"); // returns "xà", I would expect "àxà" or just "x" instead
pathinfo("àyà/àxà", PATHINFO_BASENAME); // returns "xà", same as above
但奇怪的是 pathinfo() 的目录名部分工作正常:
pathinfo("àyà/àxà", PATHINFO_DIRNAME); // returns "àyà"
PHP 文档警告说basename()和pathinfo()函数可以识别语言环境,但这并不能证明pathinfo(..., PATHINFO_BASENAME)
and之间的不一致是合理的pathinfo(..., PATHINFO_DIRNAME)
,更不用说相同的非拉丁字符被丢弃或接受的事实,具体取决于它们相对于拉丁文的位置人物。
这听起来像一个PHP错误。
由于“basename”检查对于避免directoy 遍历的安全问题非常重要,是否有任何可靠的basename 过滤器可以很好地处理unicode 输入?