当前位置: 首页 > news >正文

picard标记DI/DS标签

代码示例

java -jar /mnt/zmds01/Product/bioinfo/gitlab/biobase/bin/picard.jar MarkDuplicates \
I="input.sort.bam" \
O="out_marked_dup.bam" \
M="out_dup_mertrics.txt" \
AS=true \
MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 \
TAGGING_POLICY=All \
CREATE_INDEX=true

代码详解

一、命令结构与核心功能

java -jar [Picard工具路径] MarkDuplicates \[输入参数] \[输出参数] \[可选配置参数]
核心功能:识别并标记高通量测序数据中因 PCR 扩增或测序仪重复读取产生的重复序列,为后续分析(如变异检测、定量分析)排除技术重复干扰。

二、参数详解

1. 基础调用部分

  • java -jar
     
    Picard 是 Java 编写的工具,需通过 Java 虚拟机运行,-jar指定执行的 jar 包文件。
  • /mnt/zmds01/Product/bioinfo/gitlab/biobase/bin/picard.jar
     
    Picard 工具的安装路径,包含所有功能模块(此处调用MarkDuplicates模块)。
  • MarkDuplicates
     
    要执行的具体功能模块,用于识别和标记重复序列。

2. 输入输出参数(必填)

  • I="/path/to/input.sort.bam"
    • IInput的缩写,指定输入的 BAM 文件路径。
    • 要求:输入文件必须是按坐标排序的比对文件(文件名中的.sort.bam表明已排序),这是工具准确判断重复序列的前提。
  • O="/path/to/output_marked_dup.bam"
    • OOutput的缩写,指定输出的 BAM 文件路径,包含标记重复后的结果。
    • 特点:输出文件中,重复序列会被添加0x400(十进制 1024)的标记(SAM 格式的第 2 字段),同时保留所有原始序列信息。
  • M="/path/to/dup_metrics.txt"
    • MMetrics的缩写,指定输出的重复率统计文件路径。
    • 内容:包含总 reads 数、重复 reads 数、重复率、文库复杂度等关键指标(示例如下):
      ## METRICS CLASS picard.sam.markduplicates.MarkDuplicatesMetrics
      LIBRARY    UNPAIRED_READS_EXAMINED    READ_PAIRS_EXAMINED    UNMAPPED_READS    ...    ESTIMATED_LIBRARY_SIZE
      None    12345    67890    123    ...    543210

3. 可选配置参数(功能优化)

  • AS=true
    • ASASSUME_SORTED的缩写,设置为true表示 “假设输入文件已按坐标排序”。
    • 作用:跳过工具内部的排序检查步骤,加快运行速度(若输入文件未正确排序,会导致结果错误,需确保sort.bam确实已排序)。
  • MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000
    • 限制工具运行时打开的文件句柄数量(Linux 系统对进程打开文件数有默认限制)。
    • 作用:避免处理大文件时因 “打开文件过多” 导致的报错,1000 是一个安全的高值设置。
  • TAGGING_POLICY=All
    • 控制重复序列标签(DIDS)的添加范围:
      • 默认值为DUPLEXSINGLE,仅对重复序列添加标签;
      • 设置为All时,所有序列(包括非重复的 “代表序列”)都会被添加标签:
        • DI(Duplicate Set Index):重复组唯一 ID(同一原始片段的扩增产物共享相同DI);
        • DS(Duplicate Set Size):该重复组包含的总序列数。
    • 重要性:您的分析脚本依赖DI标签进行重复组分组,此参数确保所有序列都能被正确分组。
  • CREATE_INDEX=true
    • 自动为输出的 BAM 文件生成索引(.bai文件)。
    • 作用:索引文件允许后续工具(如samtools、IGV 基因组浏览器)快速定位特定区域的序列,无需读取整个 BAM 文件,提升分析效率。

三、运行逻辑与输出结果

  1. 运行流程:
     
    ① 读取输入的排序 BAM 文件,解析每条序列的比对位置(染色体、起始坐标)和序列特征;
     
    ② 基于位置和序列一致性判断重复组(来自同一原始 DNA 片段的扩增产物);
     
    ③ 为每个重复组添加DI(组 ID)和DS(组大小)标签,并标记重复序列(0x400标志);
     
    ④ 输出标记后的 BAM 文件、索引文件和重复率统计文件。
  2. 关键输出文件:
    • out_marked_dup.bam:标记重复后的主文件,包含所有序列及DI/DS标签;
    • out_marked_dup.bai:BAM 索引文件(由CREATE_INDEX=true生成);
    • out_dup_mertrics.txt:重复率统计,用于评估数据质量(如重复率过高可能提示 PCR 扩增偏差)。

四、使用注意事项

  1. 输入文件必须按坐标排序(可通过samtools view -H input.bam | grep @HD查看SO:coordinate确认);
  2. TAGGING_POLICY=All是您后续分析(基于DI标签分组)的关键参数,不可省略;
  3. 若运行时报 “文件句柄不足” 错误,可增大MAX_FILE_HANDLES_FOR_READ_ENDS_MAP的值(如 2000);
  4. 结果可通过samtools view output.bam | head查看,重复序列的第 2 字段会包含10240x400的十进制),且所有序列都有DI:i:xxx标签。
http://www.hskmm.com/?act=detail&tid=30806

相关文章:

  • 2025年成都全日制辅导机构优选指南,全日制培训班/集训机构/集训班/全日制一对一培训/文化课集训机构,学习提升新选择
  • 2025 年灭老鼠公司最新推荐排行榜:欧盟认证技术与环保服务双优品牌权威甄选,含成都 / 四川专业机构口碑指南除老鼠/消灭老鼠/老鼠消杀公司推荐
  • uni-app x初探
  • 深度SEO优化的方式有哪些,从技术层面来说
  • 2025 年南昌装修公司推荐南昌市宿然装饰工程有限公司,以专业与真诚雕琢理想空间南昌装修设计推荐指南!
  • C# Avalonia 16- Animation- AnimateRadialGradient
  • ControlNet——AI图像生成的“精准操控工具”
  • 2025 年国内模切加工源头厂家最新推荐排行榜:聚焦 0.1mm 精度与高产能标杆,为下游企业精选优质合作商电子辅料/硅胶/薄膜/胶黏/绝缘模切加工厂家推荐
  • 2025 武汉实缴服务机构最新推荐排行榜:知识产权 / 注册资本代办优选清单,深度解析专业服务品质
  • 华为开发者空间携手乐知行:轻松实现智能网联小车数据可视化系
  • card滑动效果
  • 学习日报
  • 2025年成都一对一培训机构优选榜:成都一对一辅导/补习/培训/补习班/辅导机构推荐,成都美博教育脱颖而出
  • 打印机共享修复,打印机无法共享,打印机修复工具下载及安装教程
  • web中静态资源加载失败的降级处理
  • 2025年保温隔热挤塑泡沫板推荐哪个厂家好?xps挤塑板/石墨聚苯板公司推荐
  • 实用指南:消息队列 MQ
  • 基于 Docker 部署 Alpine Linux:从入门到实践
  • 行列式按一行或列展开
  • 2025 年最新推荐高性价比实木家具厂家排行榜:涵盖实木床餐边柜/餐桌斗柜/书柜/梳妆台/床头柜/餐椅沙发/休闲椅优质厂家精选
  • 多智能体微服务实战(3/4):Aspire 打造本地 K8s 开发环境
  • 2025 年水下打捞公司服务推荐榜:水下打捞手机/水下打捞黄金/水下打捞戒指/水下打捞沉船/水下打捞转头,聚焦专业与高效,助力解决各类水下应急需求
  • SAP 中物料视图必填字段(用下程序定期校验)
  • 一文读懂Optimism,Arbitrum,ZK Rollups 共识算法
  • 【光照】UnityURP渲染中的HDR
  • 在jupyter notebook中使用自己创建的conda虚拟环境的Python内核
  • Flutter顶部状态栏显示,安全区设置等,防止各种异性屏挡住应用操作栏
  • LGP11189 [KDOI R10] 水杯降温 学习笔记
  • notepad++中使用正则表达式过滤数据
  • 从孔子到马斯克:理解原理与问对问题的智慧史