我正在制作一个跨平台应用程序,它根据在线检索的数据重命名文件。我想清理从当前平台的 Web API 获取的字符串。
我知道不同的平台有不同的文件名要求,所以我想知道是否有跨平台的方法来做到这一点?
编辑:在 Windows 平台上,您不能有问号“?” 在文件名中,而在 Linux 中,您可以。文件名可能包含此类字符,我希望支持这些字符的平台保留它们,否则,将它们删除。
此外,我更喜欢不需要第三方库的标准 Java 解决方案。
我正在制作一个跨平台应用程序,它根据在线检索的数据重命名文件。我想清理从当前平台的 Web API 获取的字符串。
我知道不同的平台有不同的文件名要求,所以我想知道是否有跨平台的方法来做到这一点?
编辑:在 Windows 平台上,您不能有问号“?” 在文件名中,而在 Linux 中,您可以。文件名可能包含此类字符,我希望支持这些字符的平台保留它们,否则,将它们删除。
此外,我更喜欢不需要第三方库的标准 Java 解决方案。
正如其他地方所建议的那样,这通常不是您想要做的。通常最好使用 File.createTempFile() 等安全方法创建临时文件。
您不应该使用白名单来执行此操作,并且只保留“好”字符。如果文件仅由中文字符组成,那么您将删除其中的所有内容。由于这个原因,我们不能使用白名单,我们必须使用黑名单。
Linux 几乎允许任何真正痛苦的事情。我只是将 Linux 限制在与 Windows 相同的列表中,这样您以后就不用担心了。
在 Windows 上使用这个 C# 片段,我生成了一个在 Windows 上无效的字符列表。此列表中的字符比您想象的要多得多(41 个),因此我不建议您尝试创建自己的列表。
foreach (char c in new string(Path.GetInvalidFileNameChars()))
{
Console.Write((int)c);
Console.Write(",");
}
这是一个“清理”文件名的简单 Java 类。
public class FileNameCleaner {
final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};
static {
Arrays.sort(illegalChars);
}
public static String cleanFileName(String badFileName) {
StringBuilder cleanName = new StringBuilder();
for (int i = 0; i < badFileName.length(); i++) {
int c = (int)badFileName.charAt(i);
if (Arrays.binarySearch(illegalChars, c) < 0) {
cleanName.append((char)c);
}
}
return cleanName.toString();
}
}
编辑:正如斯蒂芬建议的那样,您可能还应该验证这些文件访问仅发生在您允许的目录中。
以下答案包含用于在 Java 中建立自定义安全上下文然后在该“沙箱”中执行代码的示例代码。
或者只是这样做:
String filename = "A20/B22b#öA\\BC#Ä$%ld_ma.la.xps";
String sane = filename.replaceAll("[^a-zA-Z0-9\\._]+", "_");
结果:A20_B22b_A_BC_ld_ma.la.xps
解释:
[a-zA-Z0-9\\._]
匹配 az 小写或大写字母、数字、点和下划线
[^a-zA-Z0-9\\._]
是相反的。即所有与第一个表达式不匹配的字符
[^a-zA-Z0-9\\._]+
是与第一个表达式不匹配的字符序列
因此,每个不包含 az、0-9 或 . _ 将被替换。
这是基于Sarel Botha接受的答案,只要您没有遇到Basic Multilingual Plane之外的任何字符,它就可以正常工作。如果您需要完整的 Unicode 支持(谁不需要?)请使用此代码,它是 Unicode 安全的:
public class FileNameCleaner {
final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};
static {
Arrays.sort(illegalChars);
}
public static String cleanFileName(String badFileName) {
StringBuilder cleanName = new StringBuilder();
int len = badFileName.codePointCount(0, badFileName.length());
for (int i=0; i<len; i++) {
int c = badFileName.codePointAt(i);
if (Arrays.binarySearch(illegalChars, c) < 0) {
cleanName.appendCodePoint(c);
}
}
return cleanName.toString();
}
}
这里的主要变化:
length
而不仅仅是length
charAt
append
char
s 转换为int
s。事实上,你永远不应该处理char
s,因为它们基本上被 BMP 之外的任何东西破坏了。这是我使用的代码:
public static String sanitizeName( String name ) {
if( null == name ) {
return "";
}
if( SystemUtils.IS_OS_LINUX ) {
return name.replaceAll( "[\u0000/]+", "" ).trim();
}
return name.replaceAll( "[\u0000-\u001f<>:\"/\\\\|?*\u007f]+", "" ).trim();
}
SystemUtils
来自Apache commons-lang3
有一个非常好的内置 Java 解决方案 - Character.isXxx()。
尝试Character.isJavaIdentifierPart(c)
:
String name = "name.é+!@#$%^&*(){}][/=?+-_\\|;:`~!'\",<>";
StringBuilder filename = new StringBuilder();
for (char c : name.toCharArray()) {
if (c=='.' || Character.isJavaIdentifierPart(c)) {
filename.append(c);
}
}
结果是“name.é$_”。
您的问题尚不清楚,但由于您计划接受来自网络表单(?)的路径名,您可能应该阻止重命名某些事物的尝试;例如“C:\Program 文件”。这意味着您需要规范化路径名以消除“。” 和“..”在您进行访问检查之前。
鉴于此,我不会尝试删除非法字符。相反,我会使用“new File(str).getCanonicalFile()”来生成规范路径,接下来检查它们是否满足您的沙盒限制,最后使用“File.exists()”、“File.isFile()”等检查源和目标是否符合犹太教规定,并且不是同一个文件系统对象。我会通过尝试执行操作并捕获异常来处理非法字符。
Paths.get(...)
抛出非法字符位置的详细异常。
public static String removeInvalidChars(final String fileName)
{
try
{
Paths.get(fileName);
return fileName;
}
catch (final InvalidPathException e)
{
if (e.getInput() != null && e.getInput().length() > 0 && e.getIndex() >= 0)
{
final StringBuilder stringBuilder = new StringBuilder(e.getInput());
stringBuilder.deleteCharAt(e.getIndex());
return removeInvalidChars(stringBuilder.toString());
}
throw e;
}
}
如果您想使用的不仅仅是 [A-Za-z0-9],请检查MS Naming Conventions,并且不要忘记过滤掉“...整数表示在 1 到 31 范围内的字符,... ",就像 Aaron Digulla 的例子一样。例如来自 David Carboni 的代码对于这些字符来说是不够的。
包含保留字符列表的摘录:
使用当前代码页中的任何字符作为名称,包括 Unicode 字符和扩展字符集 (128–255) 中的字符,但以下字符除外:
以下保留字符:
<
(少于)>
(比...更棒):
(冒号)"
(双引号)/
(正斜杠)\
(反斜杠)|
(垂直条或管)?
(问号)*
(星号)- 整数值零,有时称为 ASCII NUL 字符。
- 整数表示在 1 到 31 范围内的字符,但允许使用这些字符的备用数据流除外。有关文件流的更多信息,请参阅文件流。
- 目标文件系统不允许的任何其他字符。