我有一堆 CSV 文件,我用 python 和 pandas 读取和绘制。
为了在我的图中添加一些关于文件(或者更确切地说是它所涉及的数据)的更多信息,我正在分析它们的标题,以从中提取各种内容(测量点的位置、测量类型等)。
问题是 - 文件是德语的,因此包含很多变音符号(ü、ö、ä)。现在我可以很好地阅读和理解它们,但我的脚本不能。
所以我想简单地用它们有效的 2 个字符表示(ü=ue,...)替换它们,这样我就不必担心使用 python 之类u'Ümlautstring'
的东西\xfcstring
。
sed -i 's/\ä/ae/g' myfile.csv
根据谷歌的说法,应该可以解决问题,但它不起作用。
通过进一步研究,我发现了问题,但没有解决方案:
我的 csv 文件编码为ISO 8859-15
,但我locale
的 is LANG=de_DE.UTF-8
,据我了解,这意味着 sed 以ü
utf 8 形式搜索,它在 ISO 8859-15 中找不到。
那么我必须告诉 sed 什么才能找到我的变音符号?
到目前为止,我发现的大多数东西都建议使用 Perl,但这并不是一个真正的选择。