生信软件23 - Samtools和GATK去除PCR重复方法汇总

1. 为什么要去除重复?

在建库测序后, 加上接头的DNA片段进行PCR扩增(由于连接flowcell的效率很低,所以需要对片段进行扩增),连接至flowcell上。PCR扩增会导致一个片段会测序多次,当该片段存在变异位点时,如果不去除重复片段则会增加该位点的测序深度,会被分析为真的变异位点,从而增加假阳性率。

2. 去除PCR重复方法

使用工具:samtoolspicard (已被整合至GATK中,本人使用版本4.2)

GATK TOOLKIT

2.1 利用FLAG值去除重复

-F参数1024表示过滤PCR重复或光学重复reads,具体FLAG含义参考本人以下文章:

生信分析进阶4 - 比对结果的FLAG和CIGAR信息含义与BAM文件指定区域提取

# f提取,F过滤
samtools view -F 1024 - h sample.bam > sample.rmdup.sam

2.2 利用samtools rmdup标记或去除重复

# 去除重复
samtools rmdup sample.bam sample.rmdup.bam 

# 只标记重复,不去除
samtools markdup sample.bam sample.markdup.bam

# 标记重复后去除重复
samtools markdup -r sample.bam sample.markdup.bam 

2.3 利用gatk MarkDuplicate 标记或去除重复

# 标记重复
gatk MarkDuplicate I=sample.sorted.bam O=sample.mkdup.bam M=metrics.txt

# 标记后去除重复
gatk  MarkDuplicate REMOVE_DUPLICATES I=sample.sorted.bam O=sample.mkdup.bam M=metrics.txt 

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

### 息学中的全基因组测序(WGS)分析流程及相关工具 #### 一、全基因组测序概述 全基因组测序(Whole Genome Sequencing, WGS)是一种高通量测序技术,通过对整个基因组进行测序来获取全面的遗传息。相比于全外显子测序(WES),WGS覆盖范围更广,不仅限于编码区,还包括非编码区其他功能未知的区域[^2]。 #### 二、WGS的主要应用领域 WGS被广泛应用于多个物学医学领域,包括但不限于疾病关联研究、种群进化分析以及个性化医疗等。通过识别单核苷酸多态性(SNP)、插入删除突变(Indel)以及其他结构性变异,研究人员能够深入理解基因组的功能及其与特定表型之间的关系[^4]。 #### 三、典型的WGS数据分析流程 以下是基于息学的标准WGS数据分析工作流: 1. **原始数据质量控制** 使用FastQC或其他类似的软件评估原始读取的质量,并利用Trimmomatic或Cutadapt去除低质量序列片段及接头污染。 2. **比对到参考基因组** 将高质量处理后的短读序列映射至相应的参考基因组上。常用的比对工具有BWA-MEM、Bowtie2或者STAR[^3]。此过程会成SAM/BAM文件作为后续步骤的基础输入材料。 3. **重复标记与局部重新调整** 鉴定并标注PCR扩增过程中产重复reads;同时执行局部重排操作以提高复杂区域内的准确性。这一步骤通常借助Picard Tools完成去冗余任务,而GATK HaplotypeCaller负责实施局部组装优化策略^. 4. **变异调用** 运用专门设计用来发现DNA水平变化点位的方法来进行最终的变异检测。例如,在人类样本中推荐采用GATK Best Practices指南下的Mutect2针对体细胞突变探测方案或是HaplotypeCaller面向胚系改变探索计划. 5. **注释与解读** 对所获得的所有候选变异进行全面详尽的息补充说明,比如它们可能影响哪些蛋白质产物?这些更改是否可能导致某种疾病风险增加等等。Annovar、VEP(Ensembl Variant Effect Predictor)都是优秀的选项之一. 6. **统计验证与报告撰写** 最终阶段涉及运用各种统计模型测试假阳性率控制情况如何,确保只有真正可靠的结论才会进入正式文档记录之中. #### 四、常用计算资源平台介绍 为了支持上述复杂的运算需求,科研人员往往会选择高性能计算机集群环境配合云计算服务共同作业。Amazon Web Services(AWS), Google Cloud Platform(GCP)均提供灵活易扩展的服务框架帮助用户高效管理大规模的数据集. ```bash # 示例命令:使用 BWA SAMtools 处理 FASTQ 文件 bwa mem reference_genome.fa sample_R1.fastq.gz sample_R2.fastq.gz | samtools view -bS - > aligned.bam samtools sort aligned.bam -o sorted_aligned.bam samtools index sorted_aligned.bam ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值