我有一个文件(非常大),其中包含行,每行都有一些用逗号分隔的字段。
从这个文件中,我必须提取几个字段并将它们转储到一个新行中。但这里的复杂之处在于,最后一个字段(列)本身包含一个逗号,但该特定字段由双引号“some,thing”(比如说)标识。
让我举个例子:-
the, quick, brown, fox, jumps, right, over, the little, "lazy,dog"
这个文件中有很多这样的行,用逗号分隔。
最后一列中可能有很多逗号,
现在我需要从中提取几列,最后一列肯定是我想要提取的。
我想过使用 awk,但似乎 awk 对分隔符的拆分没有限制。
python 有一个 split() 函数,我们可以在其中限制编号。分割数,字符串的最后一个索引。['the', 'quick', 'brown', 'fox', 'jumps', 'right', 'over', 'the little', 'lazy,dog']。
此外,应从最终输出中删除双引号。
我试图使用 awk,因为 awk 在处理大文件时对我来说似乎更快。但是是否有可能实现这种事情,或者我需要使用 Pythonic 的循环和拆分方式,这似乎有点慢。
注:1)编号。列数是固定的。
请建议。