我有一个包含多个条目的文件。每个条目的格式如下:
"field1","field2","field3","field4","field5"
所有字段都保证不包含任何引号,但是它们可以包含,
. 问题是field4
可以分成多行。因此,示例文件可能如下所示:
"john","male US","done","Some sample text
across multiple lines. There
can be many lines of this","foo bar baz"
"jane","female UK","done","fields can have , in them","abc xyz"
我想使用 Python 提取字段。如果该字段不会被拆分为多行,这将很简单:从引号之间提取字符串。但在多行字段存在的情况下,我似乎找不到一种简单的方法来做到这一点。
编辑:实际上有五个字段。抱歉,如果有任何混淆。该问题已被编辑以反映这一点。