当前位置：首页 > news >正文

picard标记DI/DS标签

news 2025/10/14 11:50:05

代码示例

java -jar /mnt/zmds01/Product/bioinfo/gitlab/biobase/bin/picard.jar MarkDuplicates \
I="input.sort.bam" \
O="out_marked_dup.bam" \
M="out_dup_mertrics.txt" \
AS=true \
MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 \
TAGGING_POLICY=All \
CREATE_INDEX=true

代码详解

一、命令结构与核心功能

java -jar [Picard工具路径] MarkDuplicates \[输入参数] \[输出参数] \[可选配置参数]

核心功能：识别并标记高通量测序数据中因 PCR 扩增或测序仪重复读取产生的重复序列，为后续分析（如变异检测、定量分析）排除技术重复干扰。

二、参数详解

1. 基础调用部分

java -jar

Picard 是 Java 编写的工具，需通过 Java 虚拟机运行，-jar指定执行的 jar 包文件。
/mnt/zmds01/Product/bioinfo/gitlab/biobase/bin/picard.jar

Picard 工具的安装路径，包含所有功能模块（此处调用MarkDuplicates模块）。
MarkDuplicates

要执行的具体功能模块，用于识别和标记重复序列。

2. 输入输出参数（必填）

I="/path/to/input.sort.bam"
- I：Input的缩写，指定输入的 BAM 文件路径。
- 要求：输入文件必须是按坐标排序的比对文件（文件名中的.sort.bam表明已排序），这是工具准确判断重复序列的前提。
O="/path/to/output_marked_dup.bam"
- O：Output的缩写，指定输出的 BAM 文件路径，包含标记重复后的结果。
- 特点：输出文件中，重复序列会被添加0x400（十进制 1024）的标记（SAM 格式的第 2 字段），同时保留所有原始序列信息。

M="/path/to/dup_metrics.txt"

M：Metrics的缩写，指定输出的重复率统计文件路径。

内容：包含总 reads 数、重复 reads 数、重复率、文库复杂度等关键指标（示例如下）：

## METRICS CLASS picard.sam.markduplicates.MarkDuplicatesMetrics
LIBRARY    UNPAIRED_READS_EXAMINED    READ_PAIRS_EXAMINED    UNMAPPED_READS    ...    ESTIMATED_LIBRARY_SIZE
None    12345    67890    123    ...    543210

3. 可选配置参数（功能优化）

AS=true
- AS：ASSUME_SORTED的缩写，设置为true表示 “假设输入文件已按坐标排序”。
- 作用：跳过工具内部的排序检查步骤，加快运行速度（若输入文件未正确排序，会导致结果错误，需确保sort.bam确实已排序）。
MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000
- 限制工具运行时打开的文件句柄数量（Linux 系统对进程打开文件数有默认限制）。
- 作用：避免处理大文件时因 “打开文件过多” 导致的报错，1000 是一个安全的高值设置。
TAGGING_POLICY=All
- 控制重复序列标签（DI和DS）的添加范围：
  - 默认值为DUPLEX或SINGLE，仅对重复序列添加标签；
  - 设置为All时，所有序列（包括非重复的 “代表序列”）都会被添加标签：
    - DI（Duplicate Set Index）：重复组唯一 ID（同一原始片段的扩增产物共享相同DI）；
    - DS（Duplicate Set Size）：该重复组包含的总序列数。
- 重要性：您的分析脚本依赖DI标签进行重复组分组，此参数确保所有序列都能被正确分组。
CREATE_INDEX=true
- 自动为输出的 BAM 文件生成索引（.bai文件）。
- 作用：索引文件允许后续工具（如samtools、IGV 基因组浏览器）快速定位特定区域的序列，无需读取整个 BAM 文件，提升分析效率。

三、运行逻辑与输出结果

运行流程：

① 读取输入的排序 BAM 文件，解析每条序列的比对位置（染色体、起始坐标）和序列特征；

② 基于位置和序列一致性判断重复组（来自同一原始 DNA 片段的扩增产物）；

③ 为每个重复组添加DI（组 ID）和DS（组大小）标签，并标记重复序列（0x400标志）；

④ 输出标记后的 BAM 文件、索引文件和重复率统计文件。
关键输出文件：
- out_marked_dup.bam：标记重复后的主文件，包含所有序列及DI/DS标签；
- out_marked_dup.bai：BAM 索引文件（由CREATE_INDEX=true生成）；
- out_dup_mertrics.txt：重复率统计，用于评估数据质量（如重复率过高可能提示 PCR 扩增偏差）。

四、使用注意事项

输入文件必须按坐标排序（可通过samtools view -H input.bam | grep @HD查看SO:coordinate确认）；
TAGGING_POLICY=All是您后续分析（基于DI标签分组）的关键参数，不可省略；
若运行时报 “文件句柄不足” 错误，可增大MAX_FILE_HANDLES_FOR_READ_ENDS_MAP的值（如 2000）；
结果可通过samtools view output.bam | head查看，重复序列的第 2 字段会包含1024（0x400的十进制），且所有序列都有DI:i:xxx标签。