我有一个要用作文件名的字符串,所以我想使用 Python 删除文件名中不允许出现的所有字符。
我宁愿严格而不是严格,所以假设我只想保留字母、数字和一小组其他字符,例如"_-.() "
. 什么是最优雅的解决方案?
文件名需要在多个操作系统(Windows、Linux 和 Mac OS)上有效——它是我的库中的一个 MP3 文件,文件名是歌曲标题,并且在 3 台机器之间共享和备份。
您可以查看Django 框架,了解它们如何从任意文本创建“slug”。slug 是 URL 和文件名友好的。
Django text utils 定义了一个函数,slugify()
,这可能是这类事情的黄金标准。本质上,他们的代码如下。
import unicodedata
import re
def slugify(value, allow_unicode=False):
"""
Taken from https://github.com/django/django/blob/master/django/utils/text.py
Convert to ASCII if 'allow_unicode' is False. Convert spaces or repeated
dashes to single dashes. Remove characters that aren't alphanumerics,
underscores, or hyphens. Convert to lowercase. Also strip leading and
trailing whitespace, dashes, and underscores.
"""
value = str(value)
if allow_unicode:
value = unicodedata.normalize('NFKC', value)
else:
value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore').decode('ascii')
value = re.sub(r'[^\w\s-]', '', value.lower())
return re.sub(r'[-\s]+', '-', value).strip('-_')
和旧版本:
def slugify(value):
"""
Normalizes string, converts to lowercase, removes non-alpha characters,
and converts spaces to hyphens.
"""
import unicodedata
value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore')
value = unicode(re.sub('[^\w\s-]', '', value).strip().lower())
value = unicode(re.sub('[-\s]+', '-', value))
# ...
return value
还有更多,但我忽略了它,因为它没有解决 slugification ,而是逃避。
您可以将列表推导与字符串方法一起使用。
>>> s
'foo-bar#baz?qux@127/\\9]'
>>> "".join(x for x in s if x.isalnum())
'foobarbazqux1279'
如果文件的格式或非法的有效字符组合(如“..”)没有限制,例如,您所说的,这种白名单方法(即只允许 valid_chars 中存在的字符)将起作用将允许一个名为“.txt”的文件名,我认为这在 Windows 上无效。由于这是最简单的方法,我会尝试从 valid_chars 中删除空格并在出现错误时添加一个已知的有效字符串,因此任何其他方法都必须知道允许在哪里处理Windows 文件命名限制,因此是复杂得多。
>>> import string
>>> valid_chars = "-_.() %s%s" % (string.ascii_letters, string.digits)
>>> valid_chars
'-_.() abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'
>>> filename = "This Is a (valid) - filename%$&$ .txt"
>>> ''.join(c for c in filename if c in valid_chars)
'This Is a (valid) - filename .txt'
使用字符串作为文件名的原因是什么?如果人类可读性不是一个因素,我会选择 base64 模块,它可以生成文件系统安全字符串。它不可读,但您不必处理碰撞并且它是可逆的。
import base64
file_name_string = base64.urlsafe_b64encode(your_string)
更新:根据马修评论更改。
只是为了使事情更加复杂,仅通过删除无效字符就不能保证您获得有效的文件名。由于允许的字符在不同的文件名上有所不同,因此保守的方法最终可能会将有效名称变成无效名称。您可能需要为以下情况添加特殊处理:
该字符串都是无效字符(留下一个空字符串)
您最终会得到一个具有特殊含义的字符串,例如“。” 或者 ”..”
在 Windows 上,某些设备名称是保留的。例如,您不能创建名为“nul”、“nul.txt”(或实际上是 nul.anything)的文件。保留名称为:
CON、PRN、AUX、NUL、COM1、COM2、COM3、COM4、COM5、COM6、COM7、COM8、COM9、LPT1、LPT2、LPT3、LPT4、LPT5、LPT6、LPT7、LPT8 和 LPT9
您可以通过在文件名前添加一些永远不会导致这些情况之一的字符串并去除无效字符来解决这些问题。
Github 上有一个不错的项目叫做python-slugify:
安装:
pip install python-slugify
然后使用:
>>> from slugify import slugify
>>> txt = "This\ is/ a%#$ test ---"
>>> slugify(txt)
'this-is-a-test'
就像S.Lott回答的那样,您可以查看Django 框架,了解它们如何将字符串转换为有效的文件名。
最新和更新的版本在 utils/text.py 中,并定义了“get_valid_filename”,如下:
def get_valid_filename(s):
s = str(s).strip().replace(' ', '_')
return re.sub(r'(?u)[^-\w.]', '', s)
(见https://github.com/django/django/blob/master/django/utils/text.py)
这是我最终使用的解决方案:
import unicodedata
validFilenameChars = "-_.() %s%s" % (string.ascii_letters, string.digits)
def removeDisallowedFilenameChars(filename):
cleanedFilename = unicodedata.normalize('NFKD', filename).encode('ASCII', 'ignore')
return ''.join(c for c in cleanedFilename if c in validFilenameChars)
unicodedata.normalize 调用将重音字符替换为无重音等效字符,这比简单地将它们剥离要好。之后,所有不允许的字符都将被删除。
我的解决方案没有预先添加已知字符串来避免可能的不允许的文件名,因为我知道在我的特定文件名格式下它们不会出现。一个更通用的解决方案需要这样做。
在一行中:
valid_file_name = re.sub('[^\w_.)( -]', '', any_string)
您还可以放置“_”字符以使其更具可读性(例如,在替换斜杠的情况下)
请记住,Unix 系统上的文件名实际上没有限制,除了
其他一切都是公平的游戏。
$触摸“ > 甚至多行 > 哈哈 > ^[[31m 红色 ^[[0m > 邪恶” $ ls -la -rw-r--r-- 11 月 17 日 23:39?甚至是多行?哈哈??[31m 红色?[0m?邪恶 $ ls -实验室 -rw-r--r-- 0 Nov 17 23:39 \neven\ multiline\nhaha\n\033[31m\ red\ \033[0m\nevil $ perl -e 'for my $i ( glob(q{./*even*}) ){ print $i; } ' ./ 甚至多行 哈哈 红色的 邪恶的
是的,我只是将 ANSI 颜色代码存储在一个文件名中并让它们生效。
为了娱乐,将 BEL 字符放在目录名称中,然后观看 CD 插入其中的乐趣;)
您可以使用 re.sub() 方法来替换任何不是“类似文件”的东西。但实际上,每个字符都可能是有效的;所以没有预先构建的功能(我相信)来完成它。
import re
str = "File!name?.txt"
f = open(os.path.join("/tmp", re.sub('[^-a-zA-Z0-9_.() ]+', '', str))
将导致 /tmp/filename.txt 的文件句柄。
>>> import string
>>> safechars = bytearray(('_-.()' + string.digits + string.ascii_letters).encode())
>>> allchars = bytearray(range(0x100))
>>> deletechars = bytearray(set(allchars) - set(safechars))
>>> filename = u'#ab\xa0c.$%.txt'
>>> safe_filename = filename.encode('ascii', 'ignore').translate(None, deletechars).decode()
>>> safe_filename
'abc..txt'
它不处理空字符串、特殊文件名('nul'、'con' 等)。
为什么不直接用 try/except 包装“osopen”,让底层操作系统判断文件是否有效?
这似乎少了很多工作,并且无论您使用哪种操作系统都是有效的。
其他评论尚未解决的另一个问题是空字符串,这显然不是有效的文件名。您还可以通过剥离太多字符而得到一个空字符串。
Windows 保留的文件名和点的问题是什么,最安全的答案是“如何从任意用户输入规范化有效文件名?”这个问题。是“甚至不要费心尝试”:如果您能找到任何其他方法来避免它(例如,使用数据库中的整数主键作为文件名),请这样做。
如果必须,并且您确实需要允许空格和“。” 对于作为名称一部分的文件扩展名,请尝试以下操作:
import re
badchars= re.compile(r'[^A-Za-z0-9_. ]+|^\.|\.$|^ | $|^$')
badnames= re.compile(r'(aux|com[1-9]|con|lpt[1-9]|prn)(\.|$)')
def makeName(s):
name= badchars.sub('_', s)
if badnames.match(name):
name= '_'+name
return name
即使这也不能保证正确,尤其是在意外的操作系统上——例如 RISC 操作系统讨厌空格并使用 '.' 作为目录分隔符。
虽然你必须小心。如果您只看拉丁语,您的介绍中没有明确说明。如果仅使用 ascii 字符对某些单词进行消毒,它们可能会变得毫无意义或其他含义。
假设您有“forêt poésie”(森林诗歌),您的消毒可能会产生“fort-posie”(强+无意义的东西)
更糟糕的是,如果您必须处理中文字符。
“下北沢”你的系统可能最终会做“---”,这在一段时间后注定会失败并且没有多大帮助。因此,如果您只处理文件,我鼓励您将它们称为您控制的通用链或保持字符不变。对于 URI,大致相同。
我意识到有很多答案,但它们主要依赖于正则表达式或外部模块,所以我想提出我自己的答案。一个纯 python 函数,不需要外部模块,不使用正则表达式。我的方法不是清除无效字符,而是只允许有效字符。
def normalizefilename(fn):
validchars = "-_.() "
out = ""
for c in fn:
if str.isalpha(c) or str.isdigit(c) or (c in validchars):
out += c
else:
out += "_"
return out
如果您愿意,您可以在变量开头添加自己的有效字符validchars
,例如英文字母表中不存在的国家字母。这是您可能想要也可能不想要的东西:一些不在 UTF-8 上运行的文件系统可能仍然存在非 ASCII 字符的问题。
此函数用于测试单个文件名的有效性,因此它将用 _ 替换路径分隔符,因为它们是无效字符。如果要添加它,修改if
以包含 os 路径分隔符很简单。
我喜欢这里的 python-slugify 方法,但它也剥离了不希望的点。所以我优化了它以通过这种方式将干净的文件名上传到 s3:
pip install python-slugify
示例代码:
s = 'Very / Unsafe / file\nname hähä \n\r .txt'
clean_basename = slugify(os.path.splitext(s)[0])
clean_extension = slugify(os.path.splitext(s)[1][1:])
if clean_extension:
clean_filename = '{}.{}'.format(clean_basename, clean_extension)
elif clean_basename:
clean_filename = clean_basename
else:
clean_filename = 'none' # only unclean characters
输出:
>>> clean_filename
'very-unsafe-file-name-haha.txt'
这是非常安全的,它适用于没有扩展名的文件名,它甚至只适用于不安全的字符文件名(结果在none
这里)。
针对 python 3.6 修改的答案
import string
import unicodedata
validFilenameChars = "-_.() %s%s" % (string.ascii_letters, string.digits)
def removeDisallowedFilenameChars(filename):
cleanedFilename = unicodedata.normalize('NFKD', filename).encode('ASCII', 'ignore')
return ''.join(chr(c) for c in cleanedFilename if chr(c) in validFilenameChars)
如果您不介意安装软件包,这应该很有用: https ://pypi.org/project/pathvalidate/
从https://pypi.org/project/pathvalidate/#sanitize-a-filename:
from pathvalidate import sanitize_filename fname = "fi:l*e/p\"a?t>h|.t<xt" print(f"{fname} -> {sanitize_filename(fname)}\n") fname = "\0_a*b:c<d>e%f/(g)h+i_0.txt" print(f"{fname} -> {sanitize_filename(fname)}\n")
输出
fi:l*e/p"a?t>h|.t<xt -> filepath.txt _a*b:c<d>e%f/(g)h+i_0.txt -> _abcde%f(g)h+i_0.txt
当遇到同样的问题时,我使用了 python-slugify。
Shoham 也建议使用,但正如 therealmarv 指出的那样,默认情况下 python-slugify 也会转换点。
regex_pattern
可以通过在参数中包含点来推翻这种行为。
> filename = "This is a väryì' Strange File-Nömé.jpeg"
> pattern = re.compile(r'[^-a-zA-Z0-9.]+')
> slugify(filename,regex_pattern=pattern)
'this-is-a-varyi-strange-file-nome.jpeg'
请注意,正则表达式模式是从
ALLOWED_CHARS_PATTERN_WITH_UPPERCASE
slugify.py
python-slugify 包文件中的全局变量,并以“。”扩展。
请记住,.()
必须使用 . 等特殊字符进行转义\
。
如果要保留大写字母,请使用该lowercase=False
参数。
> filename = "This is a väryì' Strange File-Nömé.jpeg"
> pattern = re.compile(r'[^-a-zA-Z0-9.]+')
> slugify(filename,regex_pattern=pattern, lowercase=False)
'This-is-a-varyi-Strange-File-Nome.jpeg'
这使用 Python 3.8.4 和 python-slugify 4.0.1
这些解决方案中的大多数都不起作用。
'/hello/world' -> 'helloworld'
'/helloworld'/ -> 'helloworld'
这通常不是您想要的,假设您正在为每个链接保存 html,您将覆盖不同网页的 html。
我腌制一个字典,例如:
{'helloworld':
(
{'/hello/world': 'helloworld', '/helloworld/': 'helloworld1'},
2)
}
2 表示应附加到下一个文件名的数字。
我每次从字典中查找文件名。如果它不存在,我创建一个新的,如果需要,附加最大数量。
不完全是 OP 所要求的,但这是我使用的,因为我需要独特且可逆的转换:
# p3 code
def safePath (url):
return ''.join(map(lambda ch: chr(ch) if ch in safePath.chars else '%%%02x' % ch, url.encode('utf-8')))
safePath.chars = set(map(lambda x: ord(x), '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz+-_ .'))
结果是“有点”可读的,至少从系统管理员的角度来看。
更新
在这个 6 岁的答案中,所有链接都无法修复。
另外,我也不会再这样做了,只是base64
编码或丢弃不安全的字符。Python 3 示例:
import re
t = re.compile("[a-zA-Z0-9.,_-]")
unsafe = "abc∂éåß®∆˚˙©¬ñ√ƒµ©∆∫ø"
safe = [ch for ch in unsafe if t.match(ch)]
# => 'abc'
您可以编码和解码,因此base64
您可以再次检索原始文件名。
但是根据用例,您最好生成一个随机文件名并将元数据存储在单独的文件或数据库中。
from random import choice
from string import ascii_lowercase, ascii_uppercase, digits
allowed_chr = ascii_lowercase + ascii_uppercase + digits
safe = ''.join([choice(allowed_chr) for _ in range(16)])
# => 'CYQ4JDKE9JfcRzAZ'
原始链接回答:
该bobcat
项目包含一个执行此操作的 python 模块。
因此,如前所述:base64
如果可读性无关紧要,编码可能是一个更好的主意。
我确定这不是一个很好的答案,因为它修改了它循环的字符串,但它似乎工作正常:
import string
for chr in your_string:
if chr == ' ':
your_string = your_string.replace(' ', '_')
elif chr not in string.ascii_letters or chr not in string.digits:
your_string = your_string.replace(chr, '')
在这里,这应该涵盖所有基础。它为您处理所有类型的问题,包括(但不限于)字符替换。
适用于 Windows、*nix 和几乎所有其他文件系统。仅允许可打印字符。
def txt2filename(txt, chr_set='normal'):
"""Converts txt to a valid Windows/*nix filename with printable characters only.
args:
txt: The str to convert.
chr_set: 'normal', 'universal', or 'inclusive'.
'universal': ' -.0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'
'normal': Every printable character exept those disallowed on Windows/*nix.
'extended': All 'normal' characters plus the extended character ASCII codes 128-255
"""
FILLER = '-'
# Step 1: Remove excluded characters.
if chr_set == 'universal':
# Lookups in a set are O(n) vs O(n * x) for a str.
printables = set(' -.0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz')
else:
if chr_set == 'normal':
max_chr = 127
elif chr_set == 'extended':
max_chr = 256
else:
raise ValueError(f'The chr_set argument may be normal, extended or universal; not {chr_set=}')
EXCLUDED_CHRS = set(r'<>:"/\|?*') # Illegal characters in Windows filenames.
EXCLUDED_CHRS.update(chr(127)) # DEL (non-printable).
printables = set(chr(x)
for x in range(32, max_chr)
if chr(x) not in EXCLUDED_CHRS)
result = ''.join(x if x in printables else FILLER # Allow printable characters only.
for x in txt)
# Step 2: Device names, '.', and '..' are invalid filenames in Windows.
DEVICE_NAMES = 'CON,PRN,AUX,NUL,COM1,COM2,COM3,COM4,' \
'COM5,COM6,COM7,COM8,COM9,LPT1,LPT2,' \
'LPT3,LPT4,LPT5,LPT6,LPT7,LPT8,LPT9,' \
'CONIN$,CONOUT$,..,.'.split() # This list is an O(n) operation.
if result in DEVICE_NAMES:
result = f'-{result}-'
# Step 3: Maximum length of filename is 255 bytes in Windows and Linux (other *nix flavors may allow longer names).
result = result[:255]
# Step 4: Windows does not allow filenames to end with '.' or ' ' or begin with ' '.
result = re.sub(r'^[. ]', FILLER, result)
result = re.sub(r' $', FILLER, result)
return result
此解决方案不需要外部库。它也替代了不可打印的文件名,因为它们并不总是易于处理。
Windows 特定路径的另一个答案,使用简单的替换并且没有时髦的模块:
import re
def check_for_illegal_char(input_str):
# remove illegal characters for Windows file names/paths
# (illegal filenames are a superset (41) of the illegal path names (36))
# this is according to windows blacklist obtained with Powershell
# from: https://stackoverflow.com/questions/1976007/what-characters-are-forbidden-in-windows-and-linux-directory-names/44750843#44750843
#
# PS> $enc = [system.Text.Encoding]::UTF8
# PS> $FileNameInvalidChars = [System.IO.Path]::GetInvalidFileNameChars()
# PS> $FileNameInvalidChars | foreach { $enc.GetBytes($_) } | Out-File -FilePath InvalidFileCharCodes.txt
illegal = '\u0022\u003c\u003e\u007c\u0000\u0001\u0002\u0003\u0004\u0005\u0006\u0007\u0008' + \
'\u0009\u000a\u000b\u000c\u000d\u000e\u000f\u0010\u0011\u0012\u0013\u0014\u0015' + \
'\u0016\u0017\u0018\u0019\u001a\u001b\u001c\u001d\u001e\u001f\u003a\u002a\u003f\u005c\u002f'
output_str, _ = re.subn('['+illegal+']','_', input_str)
output_str = output_str.replace('\\','_') # backslash cannot be handled by regex
output_str = output_str.replace('..','_') # double dots are illegal too, or at least a bad idea
output_str = output_str[:-1] if output_str[-1] == '.' else output_str # can't have end of line '.'
if output_str != input_str:
print(f"The name '{input_str}' had invalid characters, "
f"name was modified to '{output_str}'")
return output_str
当用 测试时check_for_illegal_char('fas\u0003\u0004good\\..asd.')
,我得到:
The name 'fas♥♦good\..asd.' had invalid characters, name was modified to 'fas__good__asd'