1

我想创建一个由两个 csv 列的所有成对组合组成的数据集。我正在使用 Stata,但它只允许有 2,147,483,647 个观察值。我对python不是很了解。我可以用 Python 做到这一点,而且最好是有效的吗?我可以做一些循环,但我想这将需要很长时间。

这是一个示例:我有这样的 a.csv(作为一列:):1 2 3 我有这样的 b.csv(作为一列:) a b c 我希望将其作为输出:1,a 1,b 1,c 2,a 2,b 2,c ... a.csv 和 b.csv 每个都有大约 700 万条记录。有什么帮助吗?谢谢!

编辑:如果我可以成对地做一个“组内”,那也将非常有用。想象一下 a.csv 和 b.csv 都有另一列,比如性别。我想做所有成对的男性和所有成对的女性(当然要复杂得多。属性数据有100多个类别)。

4

1 回答 1

0

Python 擅长这些事情。如果两个 csv 文件非常大并且 python 为其提供迭代。

for line1 in open('really_big_file.csv'):
    for line2 in open('really_big_file.csv'):
        combine(line1, line2)

Python会迭代每一行数据并释放它,它是自动的。

于 2013-01-09T08:36:40.653 回答