我有一个内部分布式计算库,我们一直将其用于并行计算工作。在对进程进行分区后,它们会运行数据加载和计算步骤,然后以“保存”步骤结束。通常这涉及将数据写入数据库表。
但是对于一个特定的任务,我需要每个进程的输出是一个带有一些数据图的 .png 文件。总共有 95 个进程,所以 95 个 .png。
在我的“保存”步骤(在每个进程上执行)中,我有一些非常简单的代码,这些代码使用 matplotlib 的boxplot
函数制作箱线图,还有一些代码用于将savefig
其写入 .png 文件,该文件具有基于特定数据的唯一名称在那个过程中使用。
但是,我偶尔会看到输出似乎有两组或多组数据被写入同一个输出文件,尽管名称是唯一的。
matplotlib 在制作箱线图或保存数字时是否使用临时文件保存?如果是这样,它是否总是使用相同的临时文件名(从而导致覆盖冲突)?我已经使用运行我的进程strace
并且看不到任何明显看起来像从 matplotlib 写入的临时文件的内容。
我如何确保这将是线程安全的?我绝对想并行保存文件,因为我希望大大扩展输出 .png 的数量,所以首先存储所有数据然后只串行执行绘图/保存部分的选项是非常不可取的。
我不可能重现我们正在使用的完整并行基础架构,但下面是调用以创建绘图句柄的函数,然后是调用以保存绘图的函数。为了这个问题,您应该假设线程安全与我们的分布式库无关。我们知道它不是来自我们的代码,它多年来一直用于我们的多处理作业而没有像这样的线程问题(尤其不是我们不能直接控制的东西,比如 matplotlib 中的任何临时文件)。
import pandas
import numpy as np
import matplotlib.pyplot as plt
def plot_category_data(betas, category_name):
"""
Function to organize beta data by date into vectors and pass to box plot
code for producing a single chart of multi-period box plots.
"""
beta_vector_list = []
yms = np.sort(betas.yearmonth.unique())
for ym in yms:
beta_vector_list.append(betas[betas.yearmonth==ym].Beta.values.flatten().tolist())
###
plot_output = plt.boxplot(beta_vector_list)
axs = plt.gcf().gca()
axs.set_xticklabels(betas.FactorDate.unique(), rotation=40, horizontalalignment='right')
axs.set_xlabel("Date")
axs.set_ylabel("Beta")
axs.set_title("%s Beta to BMI Global"%(category_name))
axs.set_ylim((-1.0, 3.0))
return plot_output
### End plot_category_data
def save(self):
"""
Make calls to store the plot to the desired output file.
"""
out_file = self.output_path + "%s.png"%(self.category_name)
fig = plt.gcf()
fig.set_figheight(6.5)
fig.set_figwidth(10)
fig.savefig(out_file, bbox_inches='tight', dpi=150)
print "Finished and stored output file %s"%(out_file)
return None
### End save