我有一个制表符分隔的文本文件,其中可能包含一些包含换行符的值,如下所示:
col1 col2 col3
row1 val1 "Some text
containing newlines. Yup, possibly
more than one..." val3
row2 val4 "val5" val6
笔记:
- 包含换行符的文本值保证最初用双引号括起来
- 行数或列数可能不同。
- 任何值都可以是文本或数字,可以包含换行符,也可以不包含
我正在尝试编写一个小的 Python 脚本re
,以便:
- 摆脱额外的换行符(但保留原始换行符,即在每一行的末尾)
- 用双引号将每个值括起来
以这样的形式拥有它会很棒:
def normalize_format(data, delimiter = '\t'):
data = re.sub(_DESIRED_REGEX_, r'"\1"', data)
return data
data
整个文件内容作为单个字符串在哪里,是_DESIRED_REGEX_
我想弄清楚的
的使用re
不是强制性的,但感谢简短而优雅的解决方案:)