2

我有大约 100 个 CSV 文件,我必须每个月处理一次,我正试图解决这个问题,但我碰壁了。我开始了解一些关于 Python 的东西,但是结合几件事仍然会给我带来问题,所以我无法弄清楚这一点。

这是我的问题:

我有很多 CSV 文件,这就是我需要做的:

在每行的前面添加一个“列”(或后面,实际上并不重要,但前面是理想的)。此外,每行有 5 行(不包括将要添加的文件名),格式如下:

6位身份证号,YYYY-MM-DD(1),YYYY-MM-DD(2),YYYY-MM-DD(3),1-2位号码

对于给定目录中的每个 CSV,我需要为文件中的每一行(没有标题行)从 YYYY-MM-DD(2) 中减去 YYYY-MM-DD(3)。

我需要行内的文件名,因为我将合并文件(如果包含在脚本中会很棒,但我想我可以弄清楚那部分),我需要知道记录来自哪个文件。文件名格式始终为 '4-5-digit-number.csv'

我希望这是有道理的,如果没有,请告诉我。我什至不知道从哪里开始,所以我没有任何真正开始为我工作的示例代码。真的很沮丧,所以我很感激你们提供的任何帮助,这个网站太棒了!

迈兰

4

2 回答 2

7

标准库中的每个任务都有一个工具:

要遍历目录中的所有 CSV 文件,请使用glob模块

import glob
for csvfilename in glob.glob(r"C:\mydirectory\*.csv"):
    #do_something

要解析 CSV 文件,请使用csv模块

import csv
with open(csvfilename, "rb") as csvfile:
    reader = csv.reader(csvfile, delimiter=",")
    for row in reader:
        # row is a list of all the entries in the current row

要解析日期并计算差异,请使用datetime模块

from datetime import datetime
startdate = datetime.strptime("1999-10-20", "%Y-%m-%d")
enddate = datetime.strptime("2003-02-28", "%Y-%m-%d")
delta = enddate - startdate # difference in days

要将值添加到行的开头:

row[0:0] = [str(delta)]

要将文件名附加到行尾:

row.append(csvfilename)

并将一行写入新的 CSV 文件:

with open(csvfilename, "wb") as csvfile:
    writer = csv.writer(csvfile, delimiter=",")
    writer.writerow(row)

综合起来,你得到:

import glob
import csv
from datetime import datetime

with open("combined_files_csv", "wb") as outfile:
    writer = csv.writer(outfile, delimiter=",")
    for csvfilename in glob.glob(r"C:\mydirectory\*.csv"):
        with open(csvfilename, "rb") as infile:
            reader = csv.reader(infile, delimiter=",")
            for row in reader:
                startdate = datetime.strptime(row[3], "%Y-%m-%d")
                enddate = datetime.strptime(row[2], "%Y-%m-%d")
                delta = enddate - startdate # difference in days
                row[0:0] = [str(delta)]
                row.append(csvfilename)
                writer.writerow(row)
于 2011-09-08T16:14:15.627 回答
0

该程序的基本大纲将如下所示:

  1. 使用 os 模块从感兴趣的目录/目录中获取文件名
  2. 一次读入每个文件
  3. 对于文件中的每一行,将其拆分为列columns = line.split(",")
  4. 使用 datetime.date 将诸如“2011-05-03”之类的字符串转换为 datetime.dates。
  5. 从第二个日期中减去第三个日期,得到 datetime.timedelta。
  6. 将所有信息以您想要的格式放置(提示:str(foo) 产生 foo 的字符串表示形式,几乎适用于任何类型)并记住它以备后用
  7. 关闭您的文件,重新打开它以进行写入,然后将您的新内容写入
于 2011-09-08T15:57:56.710 回答