我对 Python 中的进度条进行了一些研究,许多解决方案似乎都是基于将工作划分为已知的离散块。即,迭代已知次数并在stdout
每次接近迭代结束的进度的一个百分点时更新进度条。
我的问题不太离散。它涉及遍历包含数百个子目录的用户目录、收集 MP3 信息并将其输入数据库。我可能会在迭代之前计算目录中 MP3 文件的数量,并将其用作离散块的指南,但是许多 mp3 可能已经在数据库中,有些文件的读取时间比其他文件要长,错误会在某些情况下发生并且必须处理等等。此外,我想知道如何使用非离散块来解决这个问题,以供将来参考。如果您有兴趣,这是我的 directory-walk/database-update 的代码:
import mutagen
import sys
import os
import sqlite3 as lite
for root, dirs, files in os.walk(startDir):
for file in files:
if isMP3(file):
fullPath = os.path.join(root, file)
# Check if path already exists in DB, skip iteration if so
if unicode(fullPath, errors="replace") in pathDict:
continue
try:
audio = MP3(fullPath)
except mutagen.mp3.HeaderNotFoundError: # Invalid file/ID3 info
#TODO: log for user to look up what files were not visitable
continue
# Do database operations and error handling therein.
线程是处理此类事情的最佳方法吗?如果是这样,是否有任何关于线程如何实现这一点的好例子?我不想要一个模块,因为(a)这似乎是我应该知道如何做的事情,并且(b)我正在为依赖精简的情况进行开发。