0

目前正在尝试编写代码来检查 7 GB 数据文件的数据质量。我试过谷歌搜索,但无济于事。最初,代码的目的是检查有多少是空值/NaN,然后​​将其与另一个数据文件连接并比较每个数据文件的质量。我们期望第二个更可靠,但我想稍后将整个过程自动化。我想知道这里是否有人愿意使用 Dask 分享他们的数据质量 python 代码。谢谢

4

1 回答 1

1

我建议采用以下方法:

  • 尝试定义如何检查小型数据集的质量并在 Pandas 中实现它
  • 尝试以这样一种方式概括该过程,即如果每个“文件的一部分”或分区都具有良好的质量,则可以认为整个数据集都具有良好的质量。
  • 使用 Dask 的 map_partitions 在数据集的分区上并行化此处理。
于 2022-02-21T13:41:33.983 回答