1

所以我在python中编写了一个HTML NLP,它使用多处理库来使事情变得更快,但我遇到的问题是我需要访问一个用作计数器的全局变量,以便我可以每次文件更改时都重置它...现在问题有两个...一个我无法影响这个全局计数器而不影响其他 posses 的计数,这不是我想要做的,另一个问题是我不能把它作为一个实例变量,因为这个数字需要比实例持续更长的时间......所以任何帮助都将不胜感激。我在想我可以通过回调来改变全局的值,但这会让我处于和以前一样的位置,它会超过其他工人拥有的值。

我的目标是覆盖paragraph_count,以便在解析每个文件后将其重置为0。

这是我的多处理代码:

def worker(word_output_path, html_output_path, source, filename):
    if filename:
        t = HTML(source)
        output = open(html_output_path, 'w')
        word_out = open(word_output_path,'w')
        with output, word_out:
            try:
                output.write(t.tokenized)
                global word_list

                for w in word_list:
                    if w:
                        word_out.write(w+'\n')
                word_list = []


        except IndexError: 
            output.write(s[1])

        except UnboundLocalError:
            output.write(s[1])



class Implement(HTML):

    def __init__(self, input_path, output_path):
        self.input_path = input_path
        self.output_path = output_path


    def ensure_dir(self, directory):
        if not os.path.exists(directory):
            os.makedirs(directory)
        return directory    


    def prosses_epubs(self):
        extHTML = ['.html', '.xhtml', '.htm', '.xml']
        pool = mp.Pool()

        for root, dirs, files in os.walk(self.input_path):
            epubs = [os.path.join(root, file) for file in files
                     if file.endswith('.epub')]
            output_file = [self.ensure_dir(self.output_path+"\\"+os.path.splitext(os.path.basename(e))[0]+'_output\\') for e in epubs]

        for count, e in enumerate(epubs):
            epub = epubLoader(e)
            print os.path.splitext(os.path.basename(e))[0]

            for filename, ext, source, file, epub in epub.get_html_from_epub():
                if ext in extHTML:
                    html_output_path = os.path.normpath(output_file[count]+os.path.dirname(file)+'/'+filename+ext)
                    word_output_path = os.path.normpath(output_file[count]+os.path.dirname(file)+'/'+filename+'.txt')

                    self.ensure_dir(os.path.dirname(html_output_path))

                    pool.apply_async(
                        worker,
                        args=(os.path.normpath(word_output_path), os.path.normpath(html_output_path), source, filename), callback = self.update_value)


                # this is where I will output the other files. 
                else:
                    output_path = os.path.normpath(output_file[count]+os.path.dirname(file)+'/'+filename+ext)

                    epub.extract(file, os.path.normpath(output_file[count]))

        pool.close()
        pool.join()

    def update_value(self):
        paragraph_count = 0 

作为旁注,我知道你们中的一个人会告诉我全局变量是个坏主意……我同意。但在这种情况下,我没有看到一个好的选择,这将是这个问题的主要原因。

4

1 回答 1

1

你不能有一个全局变量,但不是全局变量,这实际上是你所要求的。multiprocessing如果没有.* ,你也会遇到同样的问题

因此,您需要以其他方式传递它。例如,您可以在每个任务使用的顶级函数中将其设置为本地,或者找到其他一些持续时间与整个任务一样长的对象使其成为该任务的成员,或者将其作为参数传递,或者传递一个带有一个值作为参数的列表(它允许您通过设置来可变地更改值lst[0] = new_value),或者......</p>


在您的代码中,您实际上根本没有在 in 循环word_list之外使用,所以……绝对没有理由让它成为全局的。但是,在您的真实代码中可能不是这样。如果您向我们展示您的真实代码(或者,更好的是,展示您在没有所有无关内容的情况下尝试做什么的SSCCE ),我们可以解释如何做您想做的事情。否则,我们所能做的就是给出模糊的解释。whileworker


* 实际上,multiprocessing这里确实有所作为。您的代码依赖于这样一个事实,即全局变量是真正的全局变量,这要归功于在其之上的多处理fork以及解释器以您希望的方式处理。这不能保证有效——在 Windows 上,每个进程都会获得一个单独的副本(这意味着池中同一进程运行的所有任务将相互共享一个副本,但不会与池中其他进程运行的任务共享一个副本),并且在一些不常见的 POSIX 平台上,您只会出现段错误。

于 2013-07-15T22:14:00.263 回答