我正在从实验中生成数据集。我最终得到了通常是n x 4
维度的 csv 数据集(n
行;n > 1000
和4
列)。但是,由于数据收集过程的人为因素,通常前几行和最后几行只有 2 或 3 列。所以一个数据集看起来像:
8,0,4091
8,0,
8,0,4091,14454
10,0,4099,14454
2,0,4094,14454
8,-3,4104,14455
3,0,4100,14455
....
....
14,-1,4094,14723
0,3,4105,14723
7,0,4123,14723
7,
6,-2,4096,
3,2,
如您所见,前两行和后三行没有我期望的 4 列。当我尝试使用 导入此文件np.loadtxt(filename, delimiter = ',')
时,出现错误。一旦我删除了少于 4 列的行(在这种情况下,前 2 行和后 3 行),导入工作正常。
两个问题:
为什么通常的导入不起作用。我不确定此导入的确切错误是什么。换句话说,为什么所有行中的列数都不相同?
作为一种解决方法,我知道如何在使用 numpy 导入文件时忽略前两行
np.loadtxt(filename, skiprows= 2)
,但是有没有一种简单的方法可以在底部选择固定数量的行来忽略?
注意:这不是关于在 numpy 数组中查找唯一行。它更多地是关于导入每行包含的列数不一致的 csv 数据。