我正在尝试处理我的用户上传的文件的名称。我想支持所有有效的 UTF-8 字符,除了那些可能在 HTML 网页上显示、通过 CLI 界面访问或在文件系统上存储和检索可能造成问题的字符。
无论如何,我想出了以下宽松的功能,我想知道它是否足够安全以供使用。我对所有数据库查询都使用准备好的语句,并且我总是对我的输出进行 html 编码,但我仍然想知道这也是一个经过深思熟虑的方法。
// $filename = $_FILES['file']['name'];
$filename = 'Filename 123;".\'"."la\l[a]*(/.jpg
∮ E⋅da = Q, n → ∞, ∑ f(i) = ∏ g(i), ∀x∈ℝ: ⌈x⌉ = −⌊−x⌋, α ∧ ¬β = ¬(¬α ∨ β),
ℕ ⊆ ℕ₀ ⊂ ℤ ⊂ ℚ ⊂ ℝ ⊂ ℂ, ⊥ < a ≠ b ≡ c ≤ d ≪ ⊤ ⇒ (A ⇔ B),
2H₂ + O₂ ⇌ 2H₂O, R = 4.7 kΩ, ⌀ 200 mm
sfajs,-=[];\',./09μετράει
าวนั้นเป็นชน
Καλημέρα κόσμε, コンニチハ
()_+{}|":?><';
// Replace symbols, punctuation, and ASCII control characters like \n or [BEL]
$filename = preg_replace('~[\p{S}\p{P}\p{C}]+~u', ' ', $filename);
这种方法对我来说安全吗?适合我的用户吗?
更新
为了澄清,我不使用文件名作为文件系统上的文件名。我生成一个唯一的哈希并使用它 - 我只需要为用户保存原始名称,因为这是他们识别文件的方式。SHA1 哈希或 UUID 对他们来说并不重要。