我希望这是一个合适的问题。如果没有,请告诉我,我会立即删除它。
问题:
我如何使用 python 来检查(视觉?)一个大型数据集是否存在组合过程中出现的错误?
背景:
我正在处理几个大型(但不是,你知道“大”)数据集,我将它们组合成一个更大的数据集。这个新集合的大小约为 2.5G,因此它不适合大多数电子表格程序,或者至少不适合我尝试过的那些(MS Excel、OpenOffice)。
创建最终数据集的过程使用模糊匹配(通过fuzzywuzzy
),我想检查匹配结果以查看是否引入了任何错误。
截至目前,我已经尝试将整个集合导入pandas
数据框。这个 DF 有 64 列,所以当我简单地做类似df.head()
结果显示信息之类的事情时,显然不会显示所有列;因此,我排除了只是迭代多个.head()
调用。
这里有一个关于可视化数据框特定方面的类似问题。我认为我的问题不同,因为我不需要可视化任何有关底层结构或类型的内容。我只想目视检查我怀疑可能有错误的区域。