1

您好,我正在尝试多次运行脚本,但希望这可以同时发生,据我所知,我是要一起使用子进程和线程但是当我运行它时,它看起来仍然是按顺序执行的,有人可以帮忙吗我这样我就可以让它一遍又一遍地运行相同的脚本,但同时?它实际上是否有效并且真的很慢?

编辑忘记了最后一段代码现在在底部

这是我到目前为止所拥有的

import os
import datetime
import threading
from subprocess import Popen

today = datetime.date.today()
os.makedirs("C:/newscript_image/" + str(today))

class myThread(threading.Thread):
    def run(self):
        for filename in os.listdir('./newscript/'):
            if '.htm' in filename:
                name = filename.strip('.htm')

                dbfolder = "C:/newscript/db/" + name
                os.makedirs(dbfolder)

                Popen("python.exe C:/execution.py" + ' ' + filename + ' ' + name + ' ' + str(today) + ' ' + dbfolder)
myThread().start()
4

3 回答 3

3

就个人而言,我会使用multiprocessing. 我会编写一个函数,它接受一个文件名并执行主要内容的任何execution操作(可能通过在其中导入execution和运行一些函数):

import multiprocessing
import execution
import datetime

#assume we have a function:
#exection.run_main_with_args(filename,name,today_str,dbfolder)

today = datetime.datetime.today()
def my_execute(filename):
    if '.htm' in filename:
       name = filename.strip('.htm')
       dbfolder = "C:/newscript/db/" + name
       os.makedirs(dbfolder)
       execution.run_main_with_args(filename,name,str(today),dbfolder)

p = multiprocessing.Pool()
p.map(my_execute,list_of_files_to_process)
于 2013-04-05T18:13:13.787 回答
2

进行了一些快速测试。使用脚本的框架:

#!/usr/bin/env python

import os
import threading
from subprocess import Popen

class myThread(threading.Thread):
    def run(self):
        for filename in os.listdir("./newscript/"):
            if '.htm' in filename:
                Popen("./busy.sh")

myThread().start()

然后,我用一堆“.htm”文件填充了“newscript”文件夹,针对这些文件运行脚本。

“busy.sh”基本上是:

#!/usr/bin/env bash
while :
do
    uptime >> $$
    sleep 1
done

您拥有的代码确实会触发在后台运行的多个进程。我使用包含 200 个文件的 newscript 文件夹执行此操作,我看到 200 个进程都在后台运行。

您注意到您希望它们同时在后台运行。

在大多数情况下,并行进程在后台“大致”并行运行,但由于大多数常见操作系统的设置方式,“并行”更像是“几乎并行”或更通常称为异步。如果您非常仔细地查看访问时间,以这种方式产生的各种进程将各自轮流,但它们永远不会同时做某事。

这是需要注意的。特别是因为您正在访问由操作系统和底层文件系统控制的文件。

对于您要执行的操作:处理一堆入站文件,您的操作方式基本上是在后台为出现的每个文件生成一个处理文件的进程。

所呈现的逻辑存在几个问题:

  1. 叉子炸弹情况的高风险,因为你的产卵是无限的,并且没有跟踪仍然产卵的东西。
  2. 通过调用和执行另一个程序来生成的方式会导致生成操作系统级别的进程,这会占用更多资源。

建议:

与其生成作业,不如将生成的文件处理代码转换为 Python 函数。将您的代码重新编写为一个守护进程,它监视文件夹并跟踪产生了多少进程,以便管理处理文件转换的后台进程级别。

在处理文件时,您将分离出一个 Python 线程来处理它,这将是产生一个操作系统级线程的更轻量级的替代方案。

于 2013-04-05T19:29:54.477 回答
0

稍微阐述一下 mgilson 的回答:

假设我们有一个文件夹 example1。
在 example1 中,我们有两个 python 脚本:
execution.pymain.py

execution.py的内容如下所示:

import subprocess


def run_main_with_args(filename,name,today,dbfolder):
    print('{} {} {}'.format('\nfilename: ',filename, ''))
    print('{} {} {}'.format('name: ',name, ''))
    print('{} {} {}'.format('today: ',today, ''))
    print('{} {} {}'.format('dbfolder: ',dbfolder, ''))

    outfile = dbfolder+ '/' + name + '.txt'
    with open (outfile, 'w') as fout:
        print('name', file=fout)

此外,main.py的内容如下所示:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#
# Author      : Bhishan Poudel; Physics Graduate Student, Ohio University
# Date        : Aug 29, 2016
#

# Imports
import multiprocessing,os,subprocess
import datetime
import execution  # file: execution.py

#assume we have a function:
#exection.run_main_with_args(filename,name,today_str,dbfolder)

today = datetime.datetime.today()
def my_execute(filename):
    if '.txt' in filename:
       name = filename.strip('.txt')
       dbfolder = "db/" + name
       if not os.path.exists(dbfolder): os.makedirs(dbfolder)
       execution.run_main_with_args(filename,name,str(today),dbfolder)



p = multiprocessing.Pool()
p.map(my_execute,['file1.txt', 'file2.txt'])

然后,如果我们运行这个main.py,它将以并行方式在所需目录中创建所需文件!

于 2016-08-30T04:54:32.153 回答