我从用户那里收到了一个以竖线分隔的文本文件,该文件使用屏幕抓取填充了一个 Excel 电子表格,因此数据一团糟。它充满了随机性^M (carriage returns)
,<96> (windows en dash)
导致导入不完整。
我试过了dos2unix
,我收到一个错误,提示转换有问题。^M
我使用在此站点上找到的此解决方案删除了所有内容:
tr -d '\r' < infile > outfile
<96>
人物还在。'/r'
这些破折号的可比性是什么?或者也许有更好的解决方案?如果可能的话,我实际上想用“好”破折号替换“坏”破折号。