第一部分：为什么我们推荐使用 Snakemake？

在生物信息学中，分析任务很少只有一个步骤。它们通常是多阶段的流程，上一步的输出是下一步的输入。手动管理这一切，不仅繁琐，而且极易出错。

Snakemake 这样的工作流管理器能帮你：

确保可复现性： 它清晰地定义了每一步、每个参数和所有依赖关系。任何人（包括未来的你）都能重新运行这个流程，并得到完全相同的结果。
实现智能自动化： 当你更改了某个输入文件或参数时，Snakemake足够智能，只会重新运行那些受影响的后续步骤，从而大大节省时间。
轻松扩展规模： 同一个工作流，只需微调，就能在你的笔记本电脑、高性能计算集群或云端服务器上运行。
提升项目清晰度： 整个流程的逻辑都写在一个可读性很强的文件里，这本身就是一份极佳的项目文档。

Snakemake 的一大魅力在于它使用类似 Python 的语法，这让它非常灵活，能与我们熟悉的 Python 语言无缝集成。

第二部分：核心概念：规则 (Rule)、输入 (Input) 和输出 (Output)

Snakemake 流程的核心是一个名为 Snakefile 的文本文件。这个文件由一系列的 规则 (rules) 构成。

一条规则定义了如何从一个 输入 (input) 文件生成一个 输出 (output) 文件。

规则的基本结构如下：

rule <规则名>:
    input:
        "path/to/输入文件.txt"
    output:
        "path/to/输出文件.txt"
    shell:
        "某个命令 {input} > {output}"

rule all: 这是一个特殊的规则，通常放在 Snakefile 的最顶端，用来定义你希望流程最终生成的全部目标文件。
input: 和 output: 这两个指令明确了规则的输入和输出文件。
shell: 或 run: 这个指令包含了要执行的命令行代码或 Python 代码。花括号里的 {input} 和 {output} 会被 Snakemake 自动替换成相应的文件路径。

第三部分：安装与设置（使用 Pixi 的正确方式）

为了确保完全的可复现性，我们将使用 Pixi 来管理你的项目环境。Pixi 将为你的整个项目提供一个隔离的环境，其中包含 Snakemake 及其所有依赖。

安装 Pixi： 如果你还没安装 Pixi，可以根据 Pixi 官方文档 ¹ ¹ 的指引进行安装。通常，你可以通过 curl -fsSL https://pixi.sh/install.sh | bash 或 cargo install pixi 来安装。
创建项目并初始化 Pixi 环境： 首先，创建一个新目录作为你的项目文件夹，并进入该文件夹。
```
mkdir snakemake_tutorial
cd snakemake_tutorial
```
然后，在该目录中初始化 Pixi。这会创建 pixi.toml 文件来管理项目依赖。
```
pixi init
```
在 Pixi 环境中安装 Snakemake 及 Python： 现在，将 Snakemake 和 Python 添加到你的 Pixi 环境中。这将确保 Snakemake 和后续 Python 脚本运行在隔离且受控的环境中。
```
pixi add snakemake python
```
进入 Pixi shell： 每次你想运行 Snakemake 或其他属于此项目的命令时，你需要进入 Pixi shell。
```
pixi shell
```
在这个 shell 里，所有通过 pixi add 安装的工具都将可用。

第四部分：实战案例：一个“中心法则”流程

让我们来创建一个模拟分子生物学“中心法则”的简单流程：DNA → RNA → 蛋白质。

1. 准备输入文件

在你的项目目录下，创建一个名为 sample1.dna.txt 的文件，内容为一段 DNA 序列：

ATGCCGATTGCA

2. 编写 Snakefile

在你的项目目录下创建一个名为 Snakefile 的文件，然后我们开始添加规则。

规则 1：定义最终目标

首先，我们告诉 Snakemake，我们最终想要什么。假设我们想为一个名为 “sample1” 的样本生成蛋白质序列文件。

# Snakefile
# 规则 all：定义我们想要的最终产出
rule all:
    input:
        "sample1.protein.txt"

规则 2：DNA 转录为 RNA

这条规则接收 DNA 序列文件作为输入，生成 RNA 序列文件。这里我们使用 通配符 (wildcard) {sample}，让规则可以灵活处理任何样本名。

# Snakefile (续)
rule transcribe_dna:
    input:
        "{sample}.dna.txt"
    output:
        "{sample}.rna.txt"
    run:
        # Snakemake 的 'run' 关键字允许我们直接写 Python 代码
        with open(input[0]) as f_in:
            dna = f_in.read().strip()
        rna = dna.replace('T', 'U')
        with open(output[0], 'w') as f_out:
            f_out.write(rna)

规则 3：RNA 翻译为蛋白质

这条规则接收 RNA 文件，并使用一个简化的密码子表将其翻译成蛋白质。为简洁起见，这张密码子表并不完整，但足以处理我们的示例序列。

# Snakefile (续)
rule translate_rna:
    input:
        "{sample}.rna.txt"
    output:
        "{sample}.protein.txt"
    run:
        # 一个用于本示例的简化密码子表
        codon_table = {
            'AUG': 'M', 'CCG': 'P', 'AUU': 'I', 'GCA': 'A',
        }
        with open(input[0]) as f_in:
            rna = f_in.read().strip()
      
        protein = ""
        for i in range(0, len(rna), 3):
            codon = rna[i:i+3]
            if codon in codon_table:
                protein += codon_table[codon]
      
        with open(output[0], 'w') as f_out:
            f_out.write(protein)

第五部分：运行与可视化你的工作流

现在，让我们在 Pixi shell 中执行这个流程。

进入 Pixi shell (如果尚未进入)：
```
pixi shell
```
预演 (Dry Run)： 首先，执行一次“预演”，看看 Snakemake 打算做什么，但并不会真的运行任何程序。
```
snakemake -n
```
Snakemake 会检查 Snakefile，发现目标是 sample1.protein.txt，并推导出需要依次执行 transcribe_dna 和 translate_rna 这两条规则。
执行流程： 现在正式运行它。--cores 15 参数表示使用15个 CPU 核心。
```
snakemake --cores 15
```
你会看到 Snakemake 按正确的顺序执行了每个任务。检查一下你的目录，sample1.rna.txt 和 sample1.protein.txt 是不是已经生成好了？
可视化流程： 为了更直观地理解流程的结构，你可以生成一张有向无环图 (DAG)。
```
snakemake --dag | dot -Tpng > dag.png
```
(你可能需要先在 Pixi 环境中安装 graphviz 才能使用 dot 命令：pixi add graphviz)

打开生成的 dag.png 文件，你就能看到一张清晰的流程依赖关系图。

总结：你的进阶之路

你已经成功地使用 Snakemake 和 Pixi 构建了一个简单、同时具备稳健性和可复现性的生物信息学流程。你学会了 Snakemake 的核心概念，理解了如何集成 Python 代码，最重要的是，掌握了如何通过 Pixi 管理项目级环境，确保你的研究严谨可靠。

从这个坚实的基础出发，你可以充满信心地将这些知识应用到更真实、更复杂的分析中，比如处理测序比对、变异检测和复杂的统计分析，让你的科研工作建立在稳固的策略基石之上。

Harvey's Garden

Explorer

使用Snakemake管理和运行流程