我做数据挖掘研究,经常有 Python 脚本从 SQLite 数据库、CSV 文件、pickle 文件等加载大型数据集。在开发过程中,我的脚本经常需要更改,我发现自己等待 20 到 30 秒等待数据装载。
加载数据流(例如从 SQLite 数据库)有时可行,但并非在所有情况下都有效——如果我需要经常返回数据集,我宁愿支付加载数据的前期时间成本。
到目前为止,我最好的解决方案是对数据进行二次采样,直到我对最终脚本感到满意为止。有没有人有更好的解决方案/设计实践?
我的“理想”解决方案将涉及巧妙地使用 Python 调试器 (pdb),以便数据保持加载在内存中,我可以编辑我的脚本,然后从给定点恢复。