python - 检查大型数据框是否存在在 python 中合并/组合期间出现的错误

Question

我希望这是一个合适的问题。如果没有，请告诉我，我会立即删除它。

问题：

我如何使用 python 来检查（视觉？）一个大型数据集是否存在组合过程中出现的错误？

背景：

我正在处理几个大型（但不是，你知道“大”）数据集，我将它们组合成一个更大的数据集。这个新集合的大小约为 2.5G，因此它不适合大多数电子表格程序，或者至少不适合我尝试过的那些（MS Excel、OpenOffice）。

创建最终数据集的过程使用模糊匹配（通过fuzzywuzzy），我想检查匹配结果以查看是否引入了任何错误。

截至目前，我已经尝试将整个集合导入pandas数据框。这个 DF 有 64 列，所以当我简单地做类似df.head()结果显示信息之类的事情时，显然不会显示所有列；因此，我排除了只是迭代多个.head()调用。

这里有一个关于可视化数据框特定方面的类似问题。我认为我的问题不同，因为我不需要可视化任何有关底层结构或类型的内容。我只想目视检查我怀疑可能有错误的区域。

score 1 · Accepted Answer

如何切片你的 10-12 行然后转置你有一个 64 行 x 12 列的数据框。如果您没有非常大的索引名称，这应该是可读的。

import pandas as pd
import numpy as np

# Set max number of rows, 64 would be enough here but I'm trying to be safe
pd.set_option('display.max_rows', 500)

df = pd.DataFrame(np.random.randn(1000,64))
nstart = 100
# Slice 12 lines starting at nstart, and transpose that...
df.iloc[nstart:(nstart+13)].T

我在这里为您保留输出，但请尝试运行上面的代码。

python - 检查大型数据框是否存在在 python 中合并/组合期间出现的错误

1 回答 1

Related

Reference