去除PCR冗余
在fastq水平:
FastUniq
ref官网:FastUniq download | SourceForge.net
使用:
建议先trim,然后在来用这个软件来去除dup,因为,这个软件是比较以后,随机保留相同的pair的中一个,如果不先trim,容易保留质量差的哪一个,而且即使trim后,它也能处理不同长度的pair。
1.建立一个list配置文件来存放你的测序数据路径:
/home/fanyc/xxx.fq
/home/fanyc/xxx.fq
2.命令:
fastuniq -i list -o xxx_R1.fq -p XXX_R2.fq -t q
-i :输入文件的格式
-t :输出文件的格式
q : FASTQ format into TWO output files
f : FASTA format into TWO output files
p : FASTA format into ONE output file
default = q
ref博客:【T】每日一生信--FastUniq去除pairedreads的duplicates_铁汉1990_新浪博客
在sam/bam水平:
picard
ref网站:Picard Tools - By Broad Institute
使用:
java -jar picard.jar MarkDuplicates \
I=xxx.sorted.bam \
O=xxx.sorted.markdup.bam \
M=xxx.markdup.txt
直接删除冗余:
java -jar picard.jar MarkDuplicates \
REMOVE_DUPLICATES=true \
I=xxx.sorted.bam \
O=xxx.sorted.markdup.bam \
M=xxx.markdup.txt
samtools
ref:samtools 使用说明
samtools markdup [-llength] [-r] [-s] [-T] [-S]in.algsort.bam out.bam
-lINTExpected maximum read length ofINTbases. [300]
-rRemove duplicate reads.
-sPrint some basic stats.
-TPREFIXWrite temporary files toPREFIX.samtools.nnnn.mmmm.tmp
-SMark supplementary reads of duplicates as duplicates.
需要四步:
samtools sort -n xxx.bam-o xxx.sort.bam
samtools fixmate -m xxx.sort.bam xxx.fixmate.bam
samtools sort xxx.fixmate.bam-o xxx.positionsort.bam
samtools markdup -r xxx.positionsort.bam xxx.markdup.bam
all:
samtools sort-n xxx.bam |samtools fixmate -m |samtools sort |samtools markdup -r >xxx.markdup.bam