嗨,我正在使用 pandas 读取一系列文件并将它们连接到数据框。我的文件开头有一堆垃圾,长度可变,我想忽略它们。pd.read_csv()
有skirows方法。我编写了一个函数来处理这种情况,但我必须打开文件两次才能使其工作。有没有更好的办法?
HEADER = '#Start'
def header_index(file_name):
with open(file_name) as fp:
for ind, line in enumerate(fp):
if line.startswith(HEADER):
return ind
for row in directories:
path2file = '%s%s%s' % (path2data, row, suffix)
myDF = pd.read_csv(path2file, skiprows=header_index(path2file), header=0, delimiter='\t')
任何帮助将不胜感激。