1

我需要从一个带有空格分隔值和取决于列数的行结构的大文件创建一个 Pandas DataFrame。

原始数据如下所示:

2008231.0 4891866.0 383842.0 2036693.0 4924388.0 375170.0

在一行或多行上,换行符被忽略。

如果列数为三,则最终结果如下所示:

[(u'2008231.0', u'4891866.0', u'383842.0'),
(u'2036693.0', u'4924388.0', u'375170.0')]

将文件拆分为行取决于文件元部分中规定的列数。

目前我将文件拆分为一个大列表并将其拆分为行:

def grouper(n, iterable, fillvalue=None):
    "Collect data into fixed-length chunks or blocks"
    # grouper(3, 'ABCDEFG', 'x') --> ABC DEF Gxx
    args = [iter(iterable)] * n
    return izip_longest(fillvalue=fillvalue, *args)

(代码来自 itertools 示例)

问题是,我最终在内存中有多个数据副本。对于 500MB 以上的文件,这会很快耗尽内存,而且 Pandas 在读取具有大型 MultiIndex 的大型列表时会遇到一些麻烦。

如何对此类数据使用 Pandas 文件读取功能(read_csv、read_table、read_fwf)?

或者有没有其他方法可以在没有辅助数据结构的情况下将数据读入 Pandas?

4

2 回答 2

1

虽然可以创建一个自定义的类文件对象,但与正常使用相比,这将非常慢pd.read_table

import pandas as pd
import re

filename = 'raw_data.csv'
class FileLike(file):
    """ Modeled after FileWrapper
    http://stackoverflow.com/a/14279543/190597 (Thorsten Kranz)
    """
    def __init__(self, *args):
        super(FileLike, self).__init__(*args)
        self.buffer = []
    def next(self):
        if not self.buffer:
            line = super(FileLike, self).next()
            self.buffer = re.findall(r'(\S+\s+\S+\s+\S+)', line)
        if self.buffer:
            line = self.buffer.pop()
            return line

with FileLike(filename, 'r') as f:
    df = pd.read_table(f, header=None, delimiter='\s+')
    print(len(df))

当我尝试FileLike在 5.8M 文件(由 200000 行组成)上使用时,上面的代码需要 3.9 秒才能运行。

如果我改为预处理数据(将每行分成 2 行并将结果写入磁盘):

import fileinput
import sys
import re

filename = 'raw_data.csv'
for line in fileinput.input([filename], inplace = True, backup='.bak'):
    for part in re.findall(r'(\S+\s+\S+\s+\S+)', line):
        print(part)

那么您当然可以使用以下方法将数据正常加载到 Pandas 中pd.read_table

with open(filename, 'r') as f:
    df = pd.read_table(f, header=None, delimiter='\s+')
    print(len(df))

重写文件所需的时间约为 0.6 秒,而现在加载 DataFrame 需要约 0.7 秒。

因此,看来您最好先将数据重写到磁盘。

于 2013-04-09T13:41:20.090 回答
0

我认为没有办法用与列相同的分隔符来分隔行。

解决此问题的一种方法是reshape(这很可能是副本而不是视图,以保持数据连续)在使用以下命令创建系列之后read_csv

s = pd.read_csv(file_name, lineterminator=' ', header=None)
df = pd.DataFrame(s.values.reshape(len(s)/n, n))

在您的示例中:

In [1]: s = pd.read_csv('raw_data.csv', lineterminator=' ', header=None, squeeze=True)

In [2]: s
Out[2]: 
0    2008231
1    4891866
2     383842
3    2036693
4    4924388
5     375170
Name: 0, dtype: float64

In [3]: pd.DataFrame(s.values.reshape(len(s)/3, 3))
Out[3]: 
         0        1       2
0  2008231  4891866  383842
1  2036693  4924388  375170
于 2013-04-09T10:29:55.253 回答