大师网-带你快速走向大师之路 解决你在学习过程中的疑惑,带你快速进入大师之门。节省时间,提升效率

去除PCR冗余

在fastq水平:

FastUniq

ref官网:FastUniq download | SourceForge.net

使用:

建议先trim,然后在来用这个软件来去除dup,因为,这个软件是比较以后,随机保留相同的pair的中一个,如果不先trim,容易保留质量差的哪一个,而且即使trim后,它也能处理不同长度的pair。

1.建立一个list配置文件来存放你的测序数据路径:

/home/fanyc/xxx.fq

/home/fanyc/xxx.fq

2.命令:

fastuniq -i list -o xxx_R1.fq -p XXX_R2.fq -t q

-i :输入文件的格式

-t :输出文件的格式

q : FASTQ format into TWO output files

f : FASTA format into TWO output files

p : FASTA format into ONE output file

default = q

ref博客:【T】每日一生信--FastUniq去除pairedreads的duplicates_铁汉1990_新浪博客


在sam/bam水平:

picard

ref网站:Picard Tools - By Broad Institute

使用:

java -jar picard.jar MarkDuplicates \

I=xxx.sorted.bam \

O=xxx.sorted.markdup.bam \

M=xxx.markdup.txt

直接删除冗余:

java -jar picard.jar MarkDuplicates \

REMOVE_DUPLICATES=true \

I=xxx.sorted.bam \

O=xxx.sorted.markdup.bam \

M=xxx.markdup.txt


samtools

ref:samtools 使用说明

samtools markdup [-llength] [-r] [-s] [-T] [-S]in.algsort.bam out.bam

-lINTExpected maximum read length ofINTbases. [300]

-rRemove duplicate reads.

-sPrint some basic stats.

-TPREFIXWrite temporary files toPREFIX.samtools.nnnn.mmmm.tmp

-SMark supplementary reads of duplicates as duplicates.

需要四步:

samtools sort -n xxx.bam-o xxx.sort.bam

samtools fixmate -m xxx.sort.bam xxx.fixmate.bam

samtools sort xxx.fixmate.bam-o xxx.positionsort.bam

samtools markdup -r xxx.positionsort.bam xxx.markdup.bam

all:

samtools sort-n xxx.bam |samtools fixmate -m |samtools sort |samtools markdup -r >xxx.markdup.bam