2

我可以使用什么命令来识别和删除某些形成“单词”的奇怪字符,例如:

í‰äó_
퀌¢í‰ä‰åí‰ä‹¢
it퀌¢í‰ä‰åí‰ä‹¢
í‰äóìgo

从一系列文件中?这些是一些示例...我想删除此类事件。

4

3 回答 3

3

从文件中获取数据后使用string模块:

import string
final_str = ''
for char in my_str:
    if char in string.printable:
        final_str += char

替代单线:

''.join([str(char) for char in my_str if char in string.printable])
于 2013-04-21T23:44:09.597 回答
2

正则表达式子怎么样?

就像是:

import re

clean_name = re.sub(r'[^a-zA-Z0-9\._-]', '', dirty_name)

将任何其他允许的字符添加到正则表达式。

于 2013-04-21T23:05:39.407 回答
2

既然你标记了shelland command-line,你就去吧

$ tr -cd [:graph:][:space:] < foo.txt
_

it
go
于 2013-04-21T23:08:19.433 回答