snakemake - 为蛇形规则生成参数化数量的输出文件

Question

我的工作流程需要在两个不同的集群上执行。第一个集群根据资源可用性将作业调度到节点。第二个集群为给定作业保留整个节点，并要求其用户在其作业脚本中有效地使用这些多个核心。对于第二个集群，在后台提交较少数量的作业和堆栈进程是公认的做法。

对于一个玩具示例，假设我要创建四个文件：

SAMPLES = [1, 2, 3, 4]

rule all:
    input:
        expand("sample.{sample}", sample=SAMPLES)

    rule normal_create_files:
        input:
        output:
            expand("sample.{sample}", sample=SAMPLES)
        shell:
            "touch {output}"

这可以与每个样本一个作业并行运行。

除了每个创建一个文件的四个作业之外，我还希望能够有两个作业每个创建两个文件。

我尝试了一些想法，但还没有走得很远。以下工作流程与上述工作流程相同，只是它创建批次并将作业作为每个批次中的后台进程启动：

rule all:
    input:
        expand("sample.{sample}", sample=SAMPLES)

rule stacked_create_files:
    input:
    output:
        "sample.{sample}"
    run:
        import subprocess as sp

        def chunks(l, n):
            for i in range(0, len(l), n):
                yield l[i:i + n]

        pids = []
        for chunk in chunks({output}.pop(), 2):
            for sample in chunk:
                pids.append(sp.Popen(["touch", sample]))

        exit_codes = [p.wait() for p in pids]

然而，这仍然创造了四个工作岗位！

我还在相关主题的邮件列表中看到了 Karel Brinda 的回复。他指出了他自己的项目，他在 python 中进行动态规则创建。接下来我将尝试这些方面的东西。

理想的解决方案是生成一组输出文件的单个规则，但能够批量生成这些文件。批次数将由配置参数设置。

这里有没有人遇到过类似的情况？任何想法或想法将不胜感激！

score 1 · Accepted Answer

我认为真正解决您的问题的方法是将 Snakemake 工作组合在一起。这个功能目前处于规划阶段（事实上我有一个关于这个的研究资助）。

事实上，目前唯一的解决方案是以某种方式将其编码到规则本身中（例如通过代码生成）。

将来，您将能够指定如何对作业的 DAG 进行分区/分组。每个生成的作业组都作为一批提交到集群。

snakemake - 为蛇形规则生成参数化数量的输出文件

1 回答 1

Related

Reference