我想创建一个由两个 csv 列的所有成对组合组成的数据集。我正在使用 Stata,但它只允许有 2,147,483,647 个观察值。我对python不是很了解。我可以用 Python 做到这一点,而且最好是有效的吗?我可以做一些循环,但我想这将需要很长时间。
这是一个示例:我有这样的 a.csv(作为一列:):1 2 3 我有这样的 b.csv(作为一列:) a b c 我希望将其作为输出:1,a 1,b 1,c 2,a 2,b 2,c ... a.csv 和 b.csv 每个都有大约 700 万条记录。有什么帮助吗?谢谢!
编辑:如果我可以成对地做一个“组内”,那也将非常有用。想象一下 a.csv 和 b.csv 都有另一列,比如性别。我想做所有成对的男性和所有成对的女性(当然要复杂得多。属性数据有100多个类别)。