python - 使用 csv 模块从 csv 文件中读取特定列？

Question

我正在尝试解析 csv 文件并仅从特定列中提取数据。

示例 csv：

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | C... | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

我试图仅捕获特定列，例如ID,Name和.ZipPhone

我看过的代码让我相信我可以通过相应的数字来调用特定的列，所以 ie:Name将对应于2并遍历每一行 usingrow[2]会产生第 2 列中的所有项目。只有它不会。

这是我到目前为止所做的：

import sys, argparse, csv
from settings import *

# command arguments
parser = argparse.ArgumentParser(description='csv to postgres',\
 fromfile_prefix_chars="@" )
parser.add_argument('file', help='csv file to import', action='store')
args = parser.parse_args()
csv_file = args.file

# open csv file
with open(csv_file, 'rb') as csvfile:

    # get number of columns
    for line in csvfile.readlines():
        array = line.split(',')
        first_item = array[0]

    num_columns = len(array)
    csvfile.seek(0)

    reader = csv.reader(csvfile, delimiter=' ')
        included_cols = [1, 2, 6, 7]

    for row in reader:
            content = list(row[i] for i in included_cols)
            print content

我希望这只会打印出我想要的每一行的特定列，除非它没有，我只得到最后一列。

score 212 · Accepted Answer

从此代码中获取最后一列的唯一方法是，如果您的循环中不包含print语句。for

这很可能是您的代码的结尾：

for row in reader:
    content = list(row[i] for i in included_cols)
print content

你希望它是这样的：

for row in reader:
        content = list(row[i] for i in included_cols)
        print content

现在我们已经解决了您的错误，我想借此时间向您介绍pandas模块。

Pandas 在处理 csv 文件方面非常出色，您只需使用以下代码即可读取 csv 并将整个列保存到变量中：

import pandas as pd
df = pd.read_csv(csv_file)
saved_column = df.column_name #you can also use df['column_name']

因此，如果您想将列中的所有信息保存Names到变量中，您只需要这样做：

names = df.Names

这是一个很棒的模块，我建议您研究一下。如果由于某种原因您的打印语句处于for循环状态并且它仍然只打印出最后一列，这不应该发生，但如果我的假设是错误的，请告诉我。您发布的代码有很多缩进错误，因此很难知道应该在哪里。希望这有帮助！

score 120 · Accepted Answer

import csv
from collections import defaultdict

columns = defaultdict(list) # each value in each column is appended to a list

with open('file.txt') as f:
    reader = csv.DictReader(f) # read rows into a dictionary format
    for row in reader: # read a row as {column1: value1, column2: value2,...}
        for (k,v) in row.items(): # go over each column name and value 
            columns[k].append(v) # append the value into the appropriate list
                                 # based on column name k

print(columns['name'])
print(columns['phone'])
print(columns['street'])

像这样的文件

name,phone,street
Bob,0893,32 Silly
James,000,400 McHilly
Smithers,4442,23 Looped St.

将输出

>>> 
['Bob', 'James', 'Smithers']
['0893', '000', '4442']
['32 Silly', '400 McHilly', '23 Looped St.']

或者，如果您想要列的数字索引：

with open('file.txt') as f:
    reader = csv.reader(f)
    reader.next()
    for row in reader:
        for (i,v) in enumerate(row):
            columns[i].append(v)
print(columns[0])

>>> 
['Bob', 'James', 'Smithers']

要更改分隔符添加delimiter=" "到适当的实例化，即reader = csv.reader(f,delimiter=" ")

score 32 · Accepted Answer

使用熊猫：

import pandas as pd
my_csv = pd.read_csv(filename)
column = my_csv.column_name
# you can also use my_csv['column_name']

在解析时丢弃不需要的列：

my_filtered_csv = pd.read_csv(filename, usecols=['col1', 'col3', 'col7'])

PS我只是以简单的方式汇总其他人所说的话。实际答案取自这里和这里。

score 21 · Accepted Answer

您可以使用numpy.loadtext(filename). 例如，如果这是您的数据库.csv：

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | Adam | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Carl | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Adolf | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Den | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

你想要Name列：

import numpy as np 
b=np.loadtxt(r'filepath\name.csv',dtype=str,delimiter='|',skiprows=1,usecols=(1,))

>>> b
array([' Adam ', ' Carl ', ' Adolf ', ' Den '], 
      dtype='|S7')

您可以更轻松地使用genfromtext：

b = np.genfromtxt(r'filepath\name.csv', delimiter='|', names=True,dtype=None)
>>> b['Name']
array([' Adam ', ' Carl ', ' Adolf ', ' Den '], 
      dtype='|S7')

score 19 · Accepted Answer

使用pandas，您可以使用read_csv参数usecols：

df = pd.read_csv(filename, usecols=['col1', 'col3', 'col7'])

例子：

import pandas as pd
import io

s = '''
total_bill,tip,sex,smoker,day,time,size
16.99,1.01,Female,No,Sun,Dinner,2
10.34,1.66,Male,No,Sun,Dinner,3
21.01,3.5,Male,No,Sun,Dinner,3
'''

df = pd.read_csv(io.StringIO(s), usecols=['total_bill', 'day', 'size'])
print(df)

   total_bill  day  size
0       16.99  Sun     2
1       10.34  Sun     3
2       21.01  Sun     3

score 7 · Accepted Answer

背景：对于这种类型的工作，您应该使用令人惊叹的 python petl 库。这将为您节省大量工作和使用标准 csv 模块“手动”执行操作的潜在挫败感。AFAIK，唯一仍在使用 csv 模块的人是那些尚未发现更好的处理表格数据（熊猫、petl 等）的工具的人，这很好，但如果您打算在你的职业生涯来自各种奇怪的来源，学习像 petl 这样的东西是你可以做出的最好的投资之一。完成 pip install petl 后，只需 30 分钟即可开始使用。文档非常好。

答：假设您在 csv 文件中有第一个表（您也可以使用 petl 直接从数据库加载）。然后，您只需加载它并执行以下操作。

from petl import fromcsv, look, cut, tocsv 

#Load the table
table1 = fromcsv('table1.csv')
# Alter the colums
table2 = cut(table1, 'Song_Name','Artist_ID')
#have a quick look to make sure things are ok. Prints a nicely formatted table to your console
print look(table2)
# Save to new file
tocsv(table2, 'new.csv')

score 5 · Accepted Answer

我认为有一个更简单的方法

import pandas as pd

dataset = pd.read_csv('table1.csv')
ftCol = dataset.iloc[:, 0].values

所以在这里iloc[:, 0]，:表示所有值，0表示列的位置。在下面的示例ID中将被选中

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | C... | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

score 3 · Accepted Answer

import pandas as pd 
csv_file = pd.read_csv("file.csv") 
column_val_list = csv_file.column_name._ndarray_values

score 1 · Accepted Answer

如果您需要单独处理列，我喜欢使用zip(*iterable)模式解构列（有效地“解压缩”）。所以对于你的例子：

ids, names, zips, phones = zip(*(
  (row[1], row[2], row[6], row[7])
  for row in reader
))

score 1 · Accepted Answer

由于可以索引和子集 pandas 数据框的方式，从 csv 文件中提取单个列到变量中的一种非常简单的方法是：

myVar = pd.read_csv('YourPath', sep = ",")['ColumnName']

有几点需要考虑：

上面的代码片段将产生一个 pandasSeries而不是dataframe. 如果速度是一个问题，ayhan with 的建议usecols也会更快。%timeit在 2122 KB 大小的 csv 文件上测试这两种不同的方法会产生22.8 msusecols 方法和53 ms我建议的方法。

不要忘记import pandas as pd

score 0 · Accepted Answer

SAMPLE.CSV
a, 1, +
b, 2, -
c, 3, *
d, 4, /
column_names = ["Letter", "Number", "Symbol"]
df = pd.read_csv("sample.csv", names=column_names)
print(df)
OUTPUT
  Letter  Number Symbol
0      a       1      +
1      b       2      -
2      c       3      *
3      d       4      /

letters = df.Letter.to_list()
print(letters)
OUTPUT
['a', 'b', 'c', 'd']

score 0 · Accepted Answer

import pandas as pd

dataset = pd.read_csv('Train.csv')
X = dataset.iloc[:, 1:-1].values
y = dataset.iloc[:, -1].values

X是一堆列，如果您想阅读更多列，请使用它
y是单列，用它来读取一列
[:, 1:-1]是[row_index : to_row_index, column_index : to_column_index]

score -2 · Accepted Answer

要获取列名，而不是使用readlines()更好地使用readline()来避免循环和读取完整文件并将其存储在数组中。

with open(csv_file, 'rb') as csvfile:

    # get number of columns

    line = csvfile.readline()

    first_item = line.split(',')

python - 使用 csv 模块从 csv 文件中读取特定列？

13 回答 13

Related

Reference