首先,我是 Python 新手。这与问题无关,但我不得不提一下。
我正在创建一个爬虫作为我的第一个项目,以了解 Python 中的工作原理,但到目前为止,这是我的主要问题......在使用requests
and时了解终端中的“如何获取多个进度条” pathos.multiprocessing
。
我设法完成了所有事情,我只想有更漂亮的输出,所以我决定添加进度条。我正在使用tqdm
,因为我喜欢它的外观,而且它似乎最容易实现。
这是我的方法,目的是下载文件。
def download_lesson(self, lesson_data):
if not 'file' in lesson_data:
return print('=> Skipping... File {file_name} already exists.'.format(file_name=lesson_data['title']))
response = requests.get(lesson_data['video_source'], stream=True)
chunk_size = 1024
with open(lesson_data['file'], 'wb') as file:
progress = tqdm(
total=int(response.headers['Content-Length']),
unit='B',
unit_scale=True
)
for chunk in response.iter_content(chunk_size=chunk_size):
if chunk:
progress.update(len(chunk))
file.write(chunk)
progress.close()
print('=> Success... File "{file_name}" has been downloaded.'.format(file_name=lesson_data['title']))
我通过以下方式运行该方法Processing
:
# c = instance of my crawling class
# cs = returns the `lesson_data` for `download_lesson` method
p = Pool(1)
p.map(c.download_lesson, cs)
所以一切都很好,就像我processes=1
在Pool
. 但是当我运行多个进程时,假设processes=3
事情开始变得很奇怪,并且我在另一个进程中得到了多个进程。
我在tqdm 文档中发现有position
. 这清楚地说明了我在这种情况下所需要的目的。
position : int, optional 指定打印此条的行偏移量(从 0 开始)如果未指定则自动。用于一次管理多个条形图(例如,从线程)。
但是,我不知道如何设置该位置。我尝试了一些奇怪的东西,例如添加一个应该自增一的变量,但是每当download_lesson
运行该方法时,它似乎并没有做任何递增。总是0
这样的位置总是0
。
所以在这种情况下我似乎不太了解......欢迎任何提示,提示或完整的解决方案。谢谢!
更新#1:
我发现我也可以将另一个参数传递给地图,所以我传递了正在设置的进程数量。(例如进程=2)
p = Pool(config['threads'])
p.map(c.download_lesson, cs, range(config['threads']))
因此,在我的方法中,我尝试打印出该参数,并且确实得到了0
and 1
,因为我正在运行2
示例中的进程。
但这似乎根本没有做任何事情......
progress = tqdm(
total=int(response.headers['Content-Length']),
unit='B',
unit_scale=True,
position=progress_position
)
我仍然遇到相同的进度条重叠问题。当我手动将位置设置为(例如 10)时,它会在终端中跳转,因此位置确实会移动,但仍然会重叠 ofc,因为现在两者都设置为 10。但是当动态设置时,它似乎也不起作用。我不明白我的问题是什么......就像地图两次运行此方法时,它仍然为两个进度条提供最新的设置位置。我到底做错了什么?