-1

我是 python 新手,没有以前的编程背景。但是,我打算参加我大学提供的 Python 编程课程。这个秋天。我有一个小项目要完成,但我需要处理超过 5 GB 的小文本文件(每个是 50 kb)。

我有很多文件名为 20130325rand.dat 的文件。该文件有 3 行标题(我需要删除)。我需要创建一个列并将该列中文件名的前 8 个字符添加为日期(mm/dd/yyyy)。

此外,我需要计算文件中每 12 行变量的平均值(每 5 分钟测量一次读数,需要计算每小时平均值)。我知道这是很多工作,但我将非常感谢任何建议、指导和帮助。谢谢。

截屏:

截屏.

4

1 回答 1

1

一些指示:

将文本文件读入行列表:

with open('20130325rand.dat') as df:
    lines = df.readlines()

这将为您提供行列表,例如

In [17]: lines
Out[17]: ['# header 1', '# header 2', '# header 3', 'line 0', 'line 1', 'line 2', 'line 3', 'line 4', 'line 5', 'line 6', 'line 7', 'line 8', 'line 9', 'line 10', 'line 11', 'line 12', 'line 13', 'line 14', 'line 15', 'line 16', 'line 17', 'line 18', 'line 19', 'line 20', 'line 21', 'line 22', 'line 23', 'line 24']

要跳过前三行,然后每隔 12 行获取一次:

In [18]: lines[3::12]
Out[18]: ['line 0', 'line 12', 'line 24']

这称为切片。您可以对文本执行相同的操作:

In [19]: '20130325rand.dat'[:8]
Out[19]: '20130325'

python的在线文档包含一个教程。但互联网上也有许多其他可用的。

欢迎使用 Python,祝你好运!

于 2013-03-25T21:04:16.727 回答