python - pool.apply_async 带有多个参数

Question

下面的代码应该同时调用两个数据库。我试图用 ThreadPool 来做，但遇到了一些困难。pool.apply_async 似乎不允许多个参数，所以我将它们放入一个元组中，然后尝试将它们解包。这是正确的方法还是有更好的解决方案？

元组列表在 params=... 中定义，元组有 3 个条目。我希望该函数被调用两次，每次使用 3 个参数。

def get_sql(self, *params):  # run with risk
    self.logger.info(len(params))
    sql=params[0]
    schema=params[1]
    db=params[2]
    self.logger.info("Running SQL with schema: {0}".format(schema))
    df = pd.read_sql(sql, db)
    return df

def compare_prod_uat(self):
    self.connect_dbrs_prod_db()
    self.connect_dbrs_uat_db()
    self.logger.info("connected to UAT and PROD database")

    sql = """ SELECT * FROM TABLE """

    params = [(sql, "DF_RISK_PRD_OWNER", self.db_dbrs_prod), (sql, "DF_RISK_CUAT_OWNER", self.db_dbrs_uat)]
    pool = ThreadPool(processes=2)
    self.logger.info("Calling Pool")
    result_prod = pool.apply_async(self.get_sql, (sql, "DF_RISK_PRD_OWNER", self.db_dbrs_prod))
    result_uat = pool.apply_async(self.get_sql, (sql, "DF_RISK_CUAT_OWNER", self.db_dbrs_uat))

    # df_prod = self.get_sql(sql, "DF_RISK_PRD_OWNER", self.db_dbrs_prod)
    # df_cuat = self.get_sql(sql, "DF_RISK_CUAT_OWNER", self.db_dbrs_uat)


    self.logger.info("Get return from uat")
    df1 = result_uat.get()  # get return value from the database call

    self.logger.info("Get return from prod")
    df2 = result_prod.get()  # get second return value from the database call


    return df1, df2

score 0 · Accepted Answer

可能有很多错误，但如果你添加

print params

作为 get_sql 的第一行，您会看到发送了一个元组 (sql, [(sql, "DF_RISK_PRD_OWNER", self.db_dbrs_prod), (sql, .....)])

所以是的，参数的长度总是两个，第一个参数是“sql”，无论你的实现是什么，第二个参数是长度为 3 的元组数组。我不明白您为什么要发送 (sql,params) 而不仅仅是 (params,) 因为“sql”似乎存在于数组元素中。如果它需要在那里，你的数组在 params[1] 中。

但是，我不明白您的工作函数将如何遍历这个数组。它似乎被构建为只执行一个 sql 语句，因为它没有 for 循环。也许您打算在 compare_prod_uat 函数中执行 for 循环并生成与数组中的元素一样多的工作人员？我不知道，但目前没有多大意义。

不过，参数问题可以通过这个来解决。

python - pool.apply_async 带有多个参数

1 回答 1

Related

Reference