我的脚本是从 csv 文件中读取数据,csv 文件可以有多个英文或非英文单词字符串。
有时文本文件有垃圾字符串,我想识别这些字符串并跳过这些字符串并处理其他字符串
doc = codecs.open(input_text_file, "rb",'utf_8_sig')
fob = csv.DictReader(doc)
for row, entry in enumerate(f):
if is_valid_unicode_str(row['Name']):
process_futher
def is_valid_unicode_str(value):
try:
function
return True
except UnicodeEncodeError:
return false
csv输入:
"Name"
"袋è¢âdcx€¹Ã¤Â¸Å½Ã¦Å“‹å‹们çâ€ÂµÃ¥ÂÂå•â€"
"元大寶來證券"
"John Dove"
我想破坏函数 is_valid_unicode_str() ,它将识别垃圾字符串并仅处理有效字符串。
我尝试使用 decode is 但它在解码垃圾字符串时没有失败
value.decode('utf8')
预期输出为待处理的中英文字符串
你能指导我如何实现过滤有效Unicode文件的功能吗?