monorail_test: Snakefile annotate

annotate Snakefile @ 11:35ed7314038d draft

Uploaded

author	chrisw
date	Wed, 13 Feb 2019 15:43:07 -0500
parents	f43dd6f7c687
children	849ab444b4f1

rev	line source
10 f43dd6f7c687 Uploaded chrisw parents: diff changeset	1 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	2 Parameters:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	3 - star: arguments to pass to STAR aligner
f43dd6f7c687 Uploaded chrisw parents: diff changeset	4 - unique_qual: minimum MAPQ needed to be counted in unique BW [default: 10]
f43dd6f7c687 Uploaded chrisw parents: diff changeset	5 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	6
f43dd6f7c687 Uploaded chrisw parents: diff changeset	7 STEPS = ['align', 'sort', 'bamcount']
f43dd6f7c687 Uploaded chrisw parents: diff changeset	8
f43dd6f7c687 Uploaded chrisw parents: diff changeset	9 FILES = ['sjout.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	10 'bamcount_nonref.csv.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	11 'bamcount_auc.tsv',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	12 'bamcount_frag.tsv',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	13 'Chimeric.out.junction.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	14 'all.exon_bw_count.zst', 'unique.exon_bw_count.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	15 'manifest']
f43dd6f7c687 Uploaded chrisw parents: diff changeset	16
f43dd6f7c687 Uploaded chrisw parents: diff changeset	17 import subprocess
f43dd6f7c687 Uploaded chrisw parents: diff changeset	18 def run_command(cmd_args):
f43dd6f7c687 Uploaded chrisw parents: diff changeset	19 cmd_args = ' '.join(cmd_args)
f43dd6f7c687 Uploaded chrisw parents: diff changeset	20 try:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	21 subprocess.check_call(args=cmd_args, shell=True)
f43dd6f7c687 Uploaded chrisw parents: diff changeset	22 except subprocess.CalledProcessError as cpe:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	23 sys.stderr.write("error in run_command for command: %s\n" % cmd_args)
f43dd6f7c687 Uploaded chrisw parents: diff changeset	24 raise cpe
f43dd6f7c687 Uploaded chrisw parents: diff changeset	25
f43dd6f7c687 Uploaded chrisw parents: diff changeset	26
f43dd6f7c687 Uploaded chrisw parents: diff changeset	27 import re
11 35ed7314038d Uploaded chrisw parents: 10 diff changeset	28 FASTQ_PATT=re.compile(r'([^_\.]+)(_(\d+))?\.((fastq)\|fq)(\.gz)?$')
10 f43dd6f7c687 Uploaded chrisw parents: diff changeset	29 import os
f43dd6f7c687 Uploaded chrisw parents: diff changeset	30 def prep_for_galaxy_run():
f43dd6f7c687 Uploaded chrisw parents: diff changeset	31 try:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	32 os.mkdir(config['temp'])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	33 except OSError as ose:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	34 pass
f43dd6f7c687 Uploaded chrisw parents: diff changeset	35 fastqs = config['inputs'].split(',')
f43dd6f7c687 Uploaded chrisw parents: diff changeset	36 m = FASTQ_PATT.search(fastqs[0])
11 35ed7314038d Uploaded chrisw parents: 10 diff changeset	37 run_acc = 'sample'
35ed7314038d Uploaded chrisw parents: 10 diff changeset	38 if m is not None:
35ed7314038d Uploaded chrisw parents: 10 diff changeset	39 run_acc = m.group(1)
10 f43dd6f7c687 Uploaded chrisw parents: diff changeset	40 study_acc = run_acc
f43dd6f7c687 Uploaded chrisw parents: diff changeset	41 if 'study' in config:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	42 study_acc = config['study']
f43dd6f7c687 Uploaded chrisw parents: diff changeset	43 genome = 'hg38'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	44 if 'genome' in config:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	45 genome = config['genome']
f43dd6f7c687 Uploaded chrisw parents: diff changeset	46 method = 'sra'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	47 # SRR,SRP,genome
f43dd6f7c687 Uploaded chrisw parents: diff changeset	48 # e.g. SRR1557855,SRP045778,ce10
f43dd6f7c687 Uploaded chrisw parents: diff changeset	49 #create links which will be used in the align step
f43dd6f7c687 Uploaded chrisw parents: diff changeset	50 i = 1
f43dd6f7c687 Uploaded chrisw parents: diff changeset	51 for f in fastqs:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	52 newf = '%s/%s_%s_%s_%s_%d.fastq' % (config['temp'], run_acc, study_acc, genome, method, i)
f43dd6f7c687 Uploaded chrisw parents: diff changeset	53 run_command(['zcat',f,'>',newf])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	54 #create fastq 0
f43dd6f7c687 Uploaded chrisw parents: diff changeset	55 if i == 1:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	56 try:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	57 os.symlink(os.path.abspath(newf), '%s/%s_%s_%s_%s_%d.fastq' % (config['temp'], run_acc, study_acc, genome, method, 0))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	58 except FileExistsError as fee:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	59 pass
f43dd6f7c687 Uploaded chrisw parents: diff changeset	60 i += 1
f43dd6f7c687 Uploaded chrisw parents: diff changeset	61 #create fastq 2 if not paired
f43dd6f7c687 Uploaded chrisw parents: diff changeset	62 if i == 2:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	63 open('%s/%s_%s_%s_%s_%d.fastq' % (config['temp'], run_acc, study_acc, genome, method, 2), "w").close()
f43dd6f7c687 Uploaded chrisw parents: diff changeset	64 #create expected file structure for annotated exon bed file & reference index
f43dd6f7c687 Uploaded chrisw parents: diff changeset	65 ref = config['ref']
f43dd6f7c687 Uploaded chrisw parents: diff changeset	66 config['ref'] = '.'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	67 os.makedirs('%s/%s' % (config['ref'], genome))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	68 os.symlink(ref, '%s/%s/star_idx' % (config['ref'], genome))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	69 os.makedirs('%s/%s/gtf' % (config['ref'], genome))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	70 os.symlink(config['exon_bed'], 'exons.tmp')
f43dd6f7c687 Uploaded chrisw parents: diff changeset	71 os.symlink('../../exons.tmp', '%s/%s/gtf/%s' % (config['ref'], genome, config.get('bw_bed', 'exons.bed')))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	72 return([run_acc, study_acc, genome, method])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	73
f43dd6f7c687 Uploaded chrisw parents: diff changeset	74
f43dd6f7c687 Uploaded chrisw parents: diff changeset	75 def get_accessions(wildcards):
f43dd6f7c687 Uploaded chrisw parents: diff changeset	76 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	77 Grouping of SRRs with the same SRP could happen here
f43dd6f7c687 Uploaded chrisw parents: diff changeset	78 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	79 #if running under galaxy where the user will input the
f43dd6f7c687 Uploaded chrisw parents: diff changeset	80 #FASTQs, study, and genome directly
f43dd6f7c687 Uploaded chrisw parents: diff changeset	81 if 'inputs' in config:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	82 (run_acc, study_acc, genome, method) = prep_for_galaxy_run()
f43dd6f7c687 Uploaded chrisw parents: diff changeset	83 for ext in FILES:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	84 yield os.path.join(config['output'], '%s_%s_%s_%s.%s' % (run_acc, study_acc, genome, method, ext))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	85 #here to get the make_galaxy_links rule to fire
f43dd6f7c687 Uploaded chrisw parents: diff changeset	86 yield os.path.join(config['output'], '%s_%s_%s_%s.done' % (run_acc, study_acc, genome, method))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	87 #not running under galaxy, takes a list of accessions
f43dd6f7c687 Uploaded chrisw parents: diff changeset	88 else:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	89 for fn in config['input'].split():
f43dd6f7c687 Uploaded chrisw parents: diff changeset	90 with open(fn, 'r') as fh:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	91 for ln in fh:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	92 if ln.count(',') < 2:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	93 continue
f43dd6f7c687 Uploaded chrisw parents: diff changeset	94 toks = ln.rstrip().split(',')
f43dd6f7c687 Uploaded chrisw parents: diff changeset	95 assert 3 <= len(toks) <= 4
f43dd6f7c687 Uploaded chrisw parents: diff changeset	96 method = 'sra'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	97 if len(toks) == 4:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	98 method = toks[3]
f43dd6f7c687 Uploaded chrisw parents: diff changeset	99 # SRR,SRP,genome
f43dd6f7c687 Uploaded chrisw parents: diff changeset	100 # e.g. SRR1557855,SRP045778,ce10
f43dd6f7c687 Uploaded chrisw parents: diff changeset	101 for ext in FILES:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	102 yield os.path.join(config['output'], '%s_%s_%s_%s.%s' % (toks[0], toks[1], toks[2], method, ext))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	103
f43dd6f7c687 Uploaded chrisw parents: diff changeset	104 rule all:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	105 input:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	106 get_accessions
f43dd6f7c687 Uploaded chrisw parents: diff changeset	107
f43dd6f7c687 Uploaded chrisw parents: diff changeset	108
f43dd6f7c687 Uploaded chrisw parents: diff changeset	109 rule make_manifest:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	110 input:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	111 config['output'] + '/{quad}.sjout.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	112 config['output'] + '/{quad}.Chimeric.out.junction.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	113 config['output'] + '/{quad}.bamcount_nonref.csv.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	114 config['output'] + '/{quad}.bamcount_auc.tsv',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	115 config['output'] + '/{quad}.bamcount_frag.tsv',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	116 config['output'] + '/{quad}.all.exon_bw_count.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	117 config['output'] + '/{quad}.unique.exon_bw_count.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	118 output:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	119 config['output'] + '/{quad}.manifest'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	120 params:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	121 quad=lambda wildcards: wildcards.quad
f43dd6f7c687 Uploaded chrisw parents: diff changeset	122 run:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	123 with open(output[0], 'wt') as fh:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	124 for fn in FILES:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	125 fh.write(params.quad + "." + fn + '\n')
f43dd6f7c687 Uploaded chrisw parents: diff changeset	126
f43dd6f7c687 Uploaded chrisw parents: diff changeset	127 def galaxy_link_files(op):
f43dd6f7c687 Uploaded chrisw parents: diff changeset	128 a = [op + '/' + f for f in FILES]
f43dd6f7c687 Uploaded chrisw parents: diff changeset	129 a.extend([op + '/align.log', op + '/bamcount.log'])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	130 return a
f43dd6f7c687 Uploaded chrisw parents: diff changeset	131
f43dd6f7c687 Uploaded chrisw parents: diff changeset	132 rule make_galaxy_links:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	133 input:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	134 config['output'] + '/{quad}.sjout.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	135 config['output'] + '/{quad}.bamcount_nonref.csv.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	136 config['output'] + '/{quad}.bamcount_auc.tsv',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	137 config['output'] + '/{quad}.bamcount_frag.tsv',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	138 config['output'] + '/{quad}.Chimeric.out.junction.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	139 config['output'] + '/{quad}.all.exon_bw_count.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	140 config['output'] + '/{quad}.unique.exon_bw_count.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	141 config['output'] + '/{quad}.manifest'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	142 output:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	143 config['output'] + '/{quad}.done'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	144 params:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	145 quad=lambda wildcards: wildcards.quad,
f43dd6f7c687 Uploaded chrisw parents: diff changeset	146 out=galaxy_link_files(config['output'])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	147 run:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	148 inputs = input.extend([config['output'] + '/' + params.quad + '.align.log',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	149 config['output'] + '/' + params.quad + '.bamcount.log'])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	150 for (i,fn) in enumerate(input):
f43dd6f7c687 Uploaded chrisw parents: diff changeset	151 os.symlink(os.path.abspath(fn), params.out[i])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	152 os.symlink(os.path.abspath(input[-3]), output[0])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	153
f43dd6f7c687 Uploaded chrisw parents: diff changeset	154
f43dd6f7c687 Uploaded chrisw parents: diff changeset	155 rule bamcount:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	156 input:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	157 bam=config['temp'] + '/{quad}-sorted.bam',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	158 bamidx=config['temp'] + '/{quad}-sorted.bam.bai',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	159 #exe='/bamcount/bamcount',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	160 exe='bamcount',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	161 bed=lambda wildcards: '%s/%s/gtf/%s' % (config['ref'], wildcards.quad.split('_')[2], config.get('bw_bed', 'exons.bed'))
f43dd6f7c687 Uploaded chrisw parents: diff changeset	162 output:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	163 nonref=config['output'] + '/{quad}.bamcount_nonref.csv.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	164 auc=config['output'] + '/{quad}.bamcount_auc.tsv',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	165 frag=config['output'] + '/{quad}.bamcount_frag.tsv',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	166 all_bw=config['output'] + '/{quad}.all.bw.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	167 unique_bw=config['output'] + '/{quad}.unique.bw.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	168 all_bw_count=config['output'] + '/{quad}.all.exon_bw_count.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	169 unique_bw_count=config['output'] + '/{quad}.unique.exon_bw_count.zst'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	170 log:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	171 config['output'] + '/{quad}.bamcount.log'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	172 params:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	173 srr=lambda wildcards: wildcards.quad.split('_')[0],
f43dd6f7c687 Uploaded chrisw parents: diff changeset	174 uniq_qual=config.get('unique_qual', 10)
f43dd6f7c687 Uploaded chrisw parents: diff changeset	175 threads: 4
f43dd6f7c687 Uploaded chrisw parents: diff changeset	176 shell:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	177 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	178 TMP={config[temp]}/{params.srr}_bamcount
f43dd6f7c687 Uploaded chrisw parents: diff changeset	179 {input.exe} {input.bam} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	180 --threads {threads} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	181 --coverage \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	182 --no-head \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	183 --require-mdz \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	184 --min-unique-qual {params.uniq_qual} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	185 --frag-dist ${{TMP}} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	186 --bigwig ${{TMP}} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	187 --annotation {input.bed} ${{TMP}} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	188 --auc ${{TMP}} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	189 --alts ${{TMP}} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	190 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	191
f43dd6f7c687 Uploaded chrisw parents: diff changeset	192 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	193 # --alts
f43dd6f7c687 Uploaded chrisw parents: diff changeset	194 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	195
f43dd6f7c687 Uploaded chrisw parents: diff changeset	196 (time zstd ${{TMP}}.alts.tsv -o {output.nonref}) 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	197 size=$(wc -c < {output.nonref})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	198 echo "COUNT_NonrefSize ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	199 rm -f ${{TMP}}.alts.tsv
f43dd6f7c687 Uploaded chrisw parents: diff changeset	200
f43dd6f7c687 Uploaded chrisw parents: diff changeset	201 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	202 # --auc
f43dd6f7c687 Uploaded chrisw parents: diff changeset	203 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	204 mv ${{TMP}}.auc.tsv {output.auc}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	205 size=$(wc -c < {output.auc})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	206 echo "COUNT_AucSize ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	207 rm -f ${{TMP}}.auc.tsv
f43dd6f7c687 Uploaded chrisw parents: diff changeset	208
f43dd6f7c687 Uploaded chrisw parents: diff changeset	209 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	210 # --frag-dist
f43dd6f7c687 Uploaded chrisw parents: diff changeset	211 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	212 mv ${{TMP}}.frags.tsv {output.frag}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	213 size=$(wc -c < {output.frag})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	214 echo "COUNT_FragDistSize ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	215 rm -f ${{TMP}}.frags.tsv
f43dd6f7c687 Uploaded chrisw parents: diff changeset	216
f43dd6f7c687 Uploaded chrisw parents: diff changeset	217 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	218 # --bigwig
f43dd6f7c687 Uploaded chrisw parents: diff changeset	219 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	220
f43dd6f7c687 Uploaded chrisw parents: diff changeset	221 (time zstd ${{TMP}}.all.bw -o {output.all_bw}) 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	222 size=$(wc -c < {output.all_bw})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	223 echo "COUNT_BwSize ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	224 rm -f ${{TMP}}.all.bw
f43dd6f7c687 Uploaded chrisw parents: diff changeset	225
f43dd6f7c687 Uploaded chrisw parents: diff changeset	226 (time zstd ${{TMP}}.unique.bw -o {output.unique_bw}) 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	227 size=$(wc -c < {output.unique_bw})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	228 echo "COUNT_BwSize ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	229 rm -f ${{TMP}}.unique.bw
f43dd6f7c687 Uploaded chrisw parents: diff changeset	230
f43dd6f7c687 Uploaded chrisw parents: diff changeset	231 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	232 # --annotation
f43dd6f7c687 Uploaded chrisw parents: diff changeset	233 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	234
f43dd6f7c687 Uploaded chrisw parents: diff changeset	235 (time zstd ${{TMP}}.all.tsv -o {output.all_bw_count}) 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	236 size=$(wc -c < {output.all_bw_count})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	237 echo "COUNT_BwQuantSize ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	238 rm -f ${{TMP}}.all.tsv
f43dd6f7c687 Uploaded chrisw parents: diff changeset	239
f43dd6f7c687 Uploaded chrisw parents: diff changeset	240 (time zstd ${{TMP}}.unique.tsv -o {output.unique_bw_count}) 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	241 size=$(wc -c < {output.unique_bw_count})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	242 echo "COUNT_BwQuantSize ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	243 rm -f ${{TMP}}.unique.tsv
f43dd6f7c687 Uploaded chrisw parents: diff changeset	244
f43dd6f7c687 Uploaded chrisw parents: diff changeset	245 # Check that all temporaries were properly purged
f43dd6f7c687 Uploaded chrisw parents: diff changeset	246 set +o pipefail ; num_files=$(ls -d ${{TMP}}* 2>/dev/null \| wc -l)
f43dd6f7c687 Uploaded chrisw parents: diff changeset	247 if (( $num_files > 0 )) ; then
f43dd6f7c687 Uploaded chrisw parents: diff changeset	248 echo "Failed to purge files (ignore . and ..): $(ls -ad ${{TMP}}*)"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	249 exit 1
f43dd6f7c687 Uploaded chrisw parents: diff changeset	250 fi
f43dd6f7c687 Uploaded chrisw parents: diff changeset	251
f43dd6f7c687 Uploaded chrisw parents: diff changeset	252 echo "COUNT_BamcountComplete 1"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	253 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	254
f43dd6f7c687 Uploaded chrisw parents: diff changeset	255 rule sort:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	256 input:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	257 config['temp'] + '/{quad}.bam'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	258 wildcard_constraints:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	259 quad="[^-]+"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	260 output:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	261 bam=temp(config['temp'] + '/{quad}-sorted.bam'),
f43dd6f7c687 Uploaded chrisw parents: diff changeset	262 bai=temp(config['temp'] + '/{quad}-sorted.bam.bai')
f43dd6f7c687 Uploaded chrisw parents: diff changeset	263 log:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	264 config['output'] + '/{quad}.sort.log'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	265 params:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	266 srr=lambda wildcards: wildcards.quad.split('_')[0]
f43dd6f7c687 Uploaded chrisw parents: diff changeset	267 threads: 8
f43dd6f7c687 Uploaded chrisw parents: diff changeset	268 shell:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	269 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	270 TMP="{config[temp]}/sort_temp.{params.srr}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	271 mkdir -p ${{TMP}}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	272 time samtools sort \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	273 -T ${{TMP}}/samtools_temp \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	274 -@ {threads} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	275 -m 64M \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	276 -o {output.bam} {input} 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	277 rm -rf ${{TMP}}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	278 size=$(wc -c < {output.bam})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	279 echo "COUNT_SortedBAMBytes ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	280
f43dd6f7c687 Uploaded chrisw parents: diff changeset	281 time samtools index -@ {threads} {output.bam} 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	282 echo "COUNT_SortComplete 1"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	283 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	284
f43dd6f7c687 Uploaded chrisw parents: diff changeset	285 rule align:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	286 input:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	287 reads0=config['temp'] + '/{quad}_0.fastq',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	288 reads1=config['temp'] + '/{quad}_1.fastq',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	289 reads2=config['temp'] + '/{quad}_2.fastq',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	290 index1=lambda wildcards: '%s/%s/star_idx/SAindex' % (config['ref'], wildcards.quad.split('_')[2]),
f43dd6f7c687 Uploaded chrisw parents: diff changeset	291 index2=lambda wildcards: '%s/%s/star_idx/SA' % (config['ref'], wildcards.quad.split('_')[2])
f43dd6f7c687 Uploaded chrisw parents: diff changeset	292 wildcard_constraints:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	293 quad="[^-]+"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	294 output:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	295 bam=temp(config['temp'] + '/{quad}.bam'),
f43dd6f7c687 Uploaded chrisw parents: diff changeset	296 jxs=config['output'] + '/{quad}.sjout.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	297 chimeric=config['output'] + '/{quad}.Chimeric.out.junction.zst',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	298 unmapped1=config['temp'] + '/{quad}_1.unmappedfastq',
f43dd6f7c687 Uploaded chrisw parents: diff changeset	299 unmapped2=config['temp'] + '/{quad}_2.unmappedfastq'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	300 log:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	301 config['output'] + '/{quad}.align.log'
f43dd6f7c687 Uploaded chrisw parents: diff changeset	302 params:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	303 index_base=lambda wildcards: '%s/%s/star_idx' % (config['ref'], wildcards.quad.split('_')[2]),
f43dd6f7c687 Uploaded chrisw parents: diff changeset	304 srr=lambda wildcards: wildcards.quad.split('_')[0],
f43dd6f7c687 Uploaded chrisw parents: diff changeset	305 star_params="%s %s" % (config.get('star', ''), '--genomeLoad LoadAndRemove' if 'inputs' not in config else '')
f43dd6f7c687 Uploaded chrisw parents: diff changeset	306 threads: 16
f43dd6f7c687 Uploaded chrisw parents: diff changeset	307 shell:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	308 """
f43dd6f7c687 Uploaded chrisw parents: diff changeset	309 READ_FILES="{input.reads0}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	310 if [[ -s {input.reads2} ]] ; then
f43dd6f7c687 Uploaded chrisw parents: diff changeset	311 READ_FILES="{input.reads1} {input.reads2}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	312 fi
f43dd6f7c687 Uploaded chrisw parents: diff changeset	313 TMP="{config[temp]}/align_temp.{params.srr}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	314 rm -rf ${{TMP}}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	315 time STAR \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	316 {params.star_params} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	317 --runMode alignReads \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	318 --runThreadN {threads} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	319 --genomeDir {params.index_base} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	320 --readFilesIn ${{READ_FILES}} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	321 --twopassMode None \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	322 --outTmpDir ${{TMP}} \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	323 --outReadsUnmapped Fastx \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	324 --outMultimapperOrder Random \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	325 --outSAMreadID Number \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	326 --outSAMtype BAM Unsorted \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	327 --outSAMmode NoQS \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	328 --outSAMattributes NH MD \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	329 --chimOutType Junctions \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	330 --chimOutJunctionFormat 1 \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	331 --chimSegmentReadGapMax 3 \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	332 --chimJunctionOverhangMin 12 \
f43dd6f7c687 Uploaded chrisw parents: diff changeset	333 --chimSegmentMin 12 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	334
f43dd6f7c687 Uploaded chrisw parents: diff changeset	335 # Full set of output files:
f43dd6f7c687 Uploaded chrisw parents: diff changeset	336 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	337 # Aligned.out.bam
f43dd6f7c687 Uploaded chrisw parents: diff changeset	338 # Chimeric.out.junction
f43dd6f7c687 Uploaded chrisw parents: diff changeset	339 # Log.final.out
f43dd6f7c687 Uploaded chrisw parents: diff changeset	340 # Log.out
f43dd6f7c687 Uploaded chrisw parents: diff changeset	341 # Log.progress.out
f43dd6f7c687 Uploaded chrisw parents: diff changeset	342 # SJ.out.tab
f43dd6f7c687 Uploaded chrisw parents: diff changeset	343 # Unmapped.out.mate1
f43dd6f7c687 Uploaded chrisw parents: diff changeset	344 # Unmapped.out.mate2 (if any reads were paired-end)
f43dd6f7c687 Uploaded chrisw parents: diff changeset	345
f43dd6f7c687 Uploaded chrisw parents: diff changeset	346 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	347 # Logs
f43dd6f7c687 Uploaded chrisw parents: diff changeset	348 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	349 rm -rf ${{TMP}}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	350 cat Log.out >> {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	351 cat Log.final.out >> {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	352 rm -f Log*.out
f43dd6f7c687 Uploaded chrisw parents: diff changeset	353
f43dd6f7c687 Uploaded chrisw parents: diff changeset	354 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	355 # Junctions
f43dd6f7c687 Uploaded chrisw parents: diff changeset	356 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	357 test -f SJ.out.tab
f43dd6f7c687 Uploaded chrisw parents: diff changeset	358 time zstd SJ.out.tab -o {output.jxs} 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	359 rm -f SJ.out.tab
f43dd6f7c687 Uploaded chrisw parents: diff changeset	360 size=$(wc -c < {output.jxs})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	361 echo "COUNT_CompressedJxBytes ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	362
f43dd6f7c687 Uploaded chrisw parents: diff changeset	363 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	364 # Chimerics
f43dd6f7c687 Uploaded chrisw parents: diff changeset	365 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	366 test -f Chimeric.out.junction
f43dd6f7c687 Uploaded chrisw parents: diff changeset	367 test -s Chimeric.out.junction
f43dd6f7c687 Uploaded chrisw parents: diff changeset	368 sort -k1,1 -n -k2,2 Chimeric.out.junction > Chimeric.out.junction.sorted
f43dd6f7c687 Uploaded chrisw parents: diff changeset	369 time zstd Chimeric.out.junction.sorted -o {output.chimeric} 2>&1 \| tee -a {log}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	370 rm -f Chimeric.out.junction Chimeric.out.junction.sorted
f43dd6f7c687 Uploaded chrisw parents: diff changeset	371 size=$(wc -c < {output.chimeric})
f43dd6f7c687 Uploaded chrisw parents: diff changeset	372 echo "COUNT_ChimericBytes ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	373
f43dd6f7c687 Uploaded chrisw parents: diff changeset	374 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	375 # Unmapped
f43dd6f7c687 Uploaded chrisw parents: diff changeset	376 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	377 touch {output.unmapped2}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	378 test -f Unmapped.out.mate1
f43dd6f7c687 Uploaded chrisw parents: diff changeset	379 mv Unmapped.out.mate1 {output.unmapped1}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	380 if [[ -f Unmapped.out.mate2 ]] ; then
f43dd6f7c687 Uploaded chrisw parents: diff changeset	381 mv Unmapped.out.mate2 {output.unmapped2}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	382 fi
f43dd6f7c687 Uploaded chrisw parents: diff changeset	383
f43dd6f7c687 Uploaded chrisw parents: diff changeset	384 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	385 # Alignments
f43dd6f7c687 Uploaded chrisw parents: diff changeset	386 #
f43dd6f7c687 Uploaded chrisw parents: diff changeset	387 size=$(wc -c < Aligned.out.bam)
f43dd6f7c687 Uploaded chrisw parents: diff changeset	388 echo "COUNT_BAMBytes ${{size}}"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	389 mv Aligned.out.bam {output.bam}
f43dd6f7c687 Uploaded chrisw parents: diff changeset	390 echo "COUNT_AlignComplete 1"
f43dd6f7c687 Uploaded chrisw parents: diff changeset	391 """

Mercurial > repos > chrisw > monorail_test

annotate Snakefile @ 11:35ed7314038d draft