我已经能够使用该站点上多个用户的输入使用 python 创建一个 csv,我希望对您的帖子表示感谢。我现在很难过,将发布我的第一个问题。
我的 input.csv 看起来像这样:
day,month,year,lat,long
01,04,2001,45.00,120.00
02,04,2003,44.00,118.00
我正在尝试删除“年份”列及其所有条目。从 1960 年到 2010 年,总共有 40 多个条目。
我已经能够使用该站点上多个用户的输入使用 python 创建一个 csv,我希望对您的帖子表示感谢。我现在很难过,将发布我的第一个问题。
我的 input.csv 看起来像这样:
day,month,year,lat,long
01,04,2001,45.00,120.00
02,04,2003,44.00,118.00
我正在尝试删除“年份”列及其所有条目。从 1960 年到 2010 年,总共有 40 多个条目。
import csv
with open("source","rb") as source:
rdr= csv.reader( source )
with open("result","wb") as result:
wtr= csv.writer( result )
for r in rdr:
wtr.writerow( (r[0], r[1], r[3], r[4]) )
顺便说一句,for
可以删除循环,但不能真正简化。
in_iter= ( (r[0], r[1], r[3], r[4]) for r in rdr )
wtr.writerows( in_iter )
此外,您可以坚持以超文字方式满足删除列的要求。我发现这通常是一个糟糕的策略,因为它不适用于删除多个列。当您尝试删除第二个时,您会发现所有位置都发生了变化,并且结果行并不明显。但仅对于一列,这有效。
del r[2]
wtr.writerow( r )
Pandas 模块的使用会容易得多。
import pandas as pd
f=pd.read_csv("test.csv")
keep_col = ['day','month','lat','long']
new_f = f[keep_col]
new_f.to_csv("newFile.csv", index=False)
这是简短的解释:
>>>f=pd.read_csv("test.csv")
>>> f
day month year lat long
0 1 4 2001 45 120
1 2 4 2003 44 118
>>> keep_col = ['day','month','lat','long']
>>> f[keep_col]
day month lat long
0 1 4 45 120
1 2 4 44 118
>>>
使用 dict 来抓取标题然后循环遍历可以获得你需要的内容。
import csv
ct = 0
cols_i_want = {'cost' : -1, 'date' : -1}
with open("file1.csv","rb") as source:
rdr = csv.reader( source )
with open("result","wb") as result:
wtr = csv.writer( result )
for row in rdr:
if ct == 0:
cc = 0
for col in row:
for ciw in cols_i_want:
if col == ciw:
cols_i_want[ciw] = cc
cc += 1
wtr.writerow( (row[cols_i_want['cost']], row[cols_i_want['date']]) )
ct += 1
我会使用带有 col 编号的 Pandas
f = pd.read_csv("test.csv", usecols=[0,1,3,4])
f.to_csv("test.csv", index=False)
您可以使用该csv
包来迭代您的 csv 文件并将您想要的列输出到另一个 csv 文件。
以下示例未经测试,应说明解决方案:
import csv
file_name = 'C:\Temp\my_file.csv'
output_file = 'C:\Temp\new_file.csv'
csv_file = open(file_name, 'r')
## note that the index of the year column is excluded
column_indices = [0,1,3,4]
with open(output_file, 'w') as fh:
reader = csv.reader(csv_file, delimiter=',')
for row in reader:
tmp_row = []
for col_inx in column_indices:
tmp_row.append(row[col_inx])
fh.write(','.join(tmp_row))
在我的脑海中,这将在没有任何错误检查或配置任何内容的情况下完成。那就是“留给读者”。
outFile = open( 'newFile', 'w' )
for line in open( 'oldFile' ):
items = line.split( ',' )
outFile.write( ','.join( items[:2] + items[ 3: ] ) )
outFile.close()
您可以直接删除该列
del variable_name['year']
我将为这个问题添加另一个答案。由于 OP 没有说他们需要用 Python 来做,删除列的最快方法(特别是当输入文件有数十万行时)是使用awk
.
这是 awk 大放异彩的问题类型:
$ awk -F, 'BEGIN {OFS=","} {print $1,$2,$4,$5}' input.csv
> output.csv
(如果您需要将输出保存到文件,请随意附加到上面的命令)
100% 归功于@eric-wilson,他提供了这个很棒的答案,作为对 10 年前原始问题的评论,几乎没有任何信用。
尝试:
result= data.drop('year', 1)
result.head(5)
这取决于您如何存储解析的 CSV,但通常您需要 del 运算符。
如果你有一个字典数组:
input = [ {'day':01, 'month':04, 'year':2001, ...}, ... ]
for E in input: del E['year']
如果你有一个数组数组:
input = [ [01, 04, 2001, ...],
[...],
...
]
for E in input: del E[2]