virana2: vmap.py annotate

annotate vmap.py @ 2:24a2978f8ffc draft

tool_dependencies with ftputil > 2.3 with statment bug fix

author	mzeidler
date	Tue, 24 Sep 2013 10:42:48 -0400
parents	3ba5983012cf
children

rev	line source
0 3ba5983012cf Uploaded mzeidler parents: diff changeset	1 #!/usr/bin/env python
3ba5983012cf Uploaded mzeidler parents: diff changeset	2 #from __future__ import print_function
3ba5983012cf Uploaded mzeidler parents: diff changeset	3
3ba5983012cf Uploaded mzeidler parents: diff changeset	4 import cProfile
3ba5983012cf Uploaded mzeidler parents: diff changeset	5
3ba5983012cf Uploaded mzeidler parents: diff changeset	6 import sys
3ba5983012cf Uploaded mzeidler parents: diff changeset	7 import re
3ba5983012cf Uploaded mzeidler parents: diff changeset	8
3ba5983012cf Uploaded mzeidler parents: diff changeset	9 import tempfile
3ba5983012cf Uploaded mzeidler parents: diff changeset	10 import subprocess
3ba5983012cf Uploaded mzeidler parents: diff changeset	11 import shutil
3ba5983012cf Uploaded mzeidler parents: diff changeset	12 import os
3ba5983012cf Uploaded mzeidler parents: diff changeset	13 import os.path
3ba5983012cf Uploaded mzeidler parents: diff changeset	14 import logging
3ba5983012cf Uploaded mzeidler parents: diff changeset	15 import bz2
3ba5983012cf Uploaded mzeidler parents: diff changeset	16 import zlib
3ba5983012cf Uploaded mzeidler parents: diff changeset	17
3ba5983012cf Uploaded mzeidler parents: diff changeset	18 import math
3ba5983012cf Uploaded mzeidler parents: diff changeset	19 import string
3ba5983012cf Uploaded mzeidler parents: diff changeset	20
3ba5983012cf Uploaded mzeidler parents: diff changeset	21 from collections import defaultdict, Counter
3ba5983012cf Uploaded mzeidler parents: diff changeset	22
3ba5983012cf Uploaded mzeidler parents: diff changeset	23 from subprocess import PIPE
3ba5983012cf Uploaded mzeidler parents: diff changeset	24
3ba5983012cf Uploaded mzeidler parents: diff changeset	25 NON_ID = ''.join(c for c in map(chr, range(256)) if not c.isalnum())
3ba5983012cf Uploaded mzeidler parents: diff changeset	26 NON_ID = NON_ID.replace('_', '').replace('-', '')
3ba5983012cf Uploaded mzeidler parents: diff changeset	27
3ba5983012cf Uploaded mzeidler parents: diff changeset	28 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	29 from Bio.SeqRecord import SeqRecord
3ba5983012cf Uploaded mzeidler parents: diff changeset	30 from Bio import SeqIO
3ba5983012cf Uploaded mzeidler parents: diff changeset	31 from Bio.Seq import Seq
3ba5983012cf Uploaded mzeidler parents: diff changeset	32 except ImportError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	33 message = 'This script requires the BioPython python package\n'
3ba5983012cf Uploaded mzeidler parents: diff changeset	34 sys.stderr.write(message)
3ba5983012cf Uploaded mzeidler parents: diff changeset	35 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	36
3ba5983012cf Uploaded mzeidler parents: diff changeset	37 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	38 from plumbum import cli
3ba5983012cf Uploaded mzeidler parents: diff changeset	39 except ImportError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	40 message = 'This script requires the plumbum python package\n'
3ba5983012cf Uploaded mzeidler parents: diff changeset	41 sys.stderr.write(message)
3ba5983012cf Uploaded mzeidler parents: diff changeset	42 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	43
3ba5983012cf Uploaded mzeidler parents: diff changeset	44
3ba5983012cf Uploaded mzeidler parents: diff changeset	45 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	46 import HTSeq
3ba5983012cf Uploaded mzeidler parents: diff changeset	47 except ImportError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	48 message = 'This script requires the HTSeq python package\n'
3ba5983012cf Uploaded mzeidler parents: diff changeset	49 sys.stderr.write(message)
3ba5983012cf Uploaded mzeidler parents: diff changeset	50 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	51
3ba5983012cf Uploaded mzeidler parents: diff changeset	52 KHMER_AVAILABLE = True
3ba5983012cf Uploaded mzeidler parents: diff changeset	53 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	54 import khmer
3ba5983012cf Uploaded mzeidler parents: diff changeset	55 except ImportError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	56 KHMER_AVAILABLE = False
3ba5983012cf Uploaded mzeidler parents: diff changeset	57
3ba5983012cf Uploaded mzeidler parents: diff changeset	58 #from io import BufferedRandom
3ba5983012cf Uploaded mzeidler parents: diff changeset	59
3ba5983012cf Uploaded mzeidler parents: diff changeset	60 logging.basicConfig(level=logging.INFO, format='%(message)s')
3ba5983012cf Uploaded mzeidler parents: diff changeset	61
3ba5983012cf Uploaded mzeidler parents: diff changeset	62
3ba5983012cf Uploaded mzeidler parents: diff changeset	63 def profile_this(fn):
3ba5983012cf Uploaded mzeidler parents: diff changeset	64 def profiled_fn(args, *kwargs):
3ba5983012cf Uploaded mzeidler parents: diff changeset	65 fpath = fn.__name__ + ".profile"
3ba5983012cf Uploaded mzeidler parents: diff changeset	66 prof = cProfile.Profile()
3ba5983012cf Uploaded mzeidler parents: diff changeset	67 ret = prof.runcall(fn, args, *kwargs)
3ba5983012cf Uploaded mzeidler parents: diff changeset	68 prof.dump_stats(fpath)
3ba5983012cf Uploaded mzeidler parents: diff changeset	69 return ret
3ba5983012cf Uploaded mzeidler parents: diff changeset	70 return profiled_fn
3ba5983012cf Uploaded mzeidler parents: diff changeset	71
3ba5983012cf Uploaded mzeidler parents: diff changeset	72
3ba5983012cf Uploaded mzeidler parents: diff changeset	73 class CLI(cli.Application):
3ba5983012cf Uploaded mzeidler parents: diff changeset	74 """RNA-Seq and DNA-Seq short read analysis by mapping to known reference sequences"""
3ba5983012cf Uploaded mzeidler parents: diff changeset	75 PROGNAME = "vmap"
3ba5983012cf Uploaded mzeidler parents: diff changeset	76 VERSION = "1.0.0"
3ba5983012cf Uploaded mzeidler parents: diff changeset	77 DESCRIPTION = """Virana vmap is an interface to the NCBI and ensembl reference databases that can
3ba5983012cf Uploaded mzeidler parents: diff changeset	78 generate reference indexes for the short read mappers STAR (RNA-Seq) and
3ba5983012cf Uploaded mzeidler parents: diff changeset	79 BWA-MEM (DNA-Seq). Short reads can be mapped to arbitrary combinations of
3ba5983012cf Uploaded mzeidler parents: diff changeset	80 reference databases and the results can be summarized by taxonomic family
3ba5983012cf Uploaded mzeidler parents: diff changeset	81 as well as stored as SAM file, unsorted BAM file, or as a HIT file that
3ba5983012cf Uploaded mzeidler parents: diff changeset	82 models multimapping reads between specific reference databases."""
3ba5983012cf Uploaded mzeidler parents: diff changeset	83 USAGE = """The program has four modes that can be accessed by `vmap rnaindex`, `vmap dnaindex`, `vmap rnamap`, and `vmap dnamap.`"""
3ba5983012cf Uploaded mzeidler parents: diff changeset	84
3ba5983012cf Uploaded mzeidler parents: diff changeset	85 def main(self, *args):
3ba5983012cf Uploaded mzeidler parents: diff changeset	86
3ba5983012cf Uploaded mzeidler parents: diff changeset	87 if args:
3ba5983012cf Uploaded mzeidler parents: diff changeset	88 print("Unknown command %r" % (args[0]))
3ba5983012cf Uploaded mzeidler parents: diff changeset	89 print self.USAGE
3ba5983012cf Uploaded mzeidler parents: diff changeset	90 return 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	91
3ba5983012cf Uploaded mzeidler parents: diff changeset	92 if not self.nested_command:
3ba5983012cf Uploaded mzeidler parents: diff changeset	93 print("No command given")
3ba5983012cf Uploaded mzeidler parents: diff changeset	94 print self.USAGE
3ba5983012cf Uploaded mzeidler parents: diff changeset	95 return 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	96
3ba5983012cf Uploaded mzeidler parents: diff changeset	97
3ba5983012cf Uploaded mzeidler parents: diff changeset	98 @CLI.subcommand("rnaindex")
3ba5983012cf Uploaded mzeidler parents: diff changeset	99 class RNAIndex(cli.Application):
3ba5983012cf Uploaded mzeidler parents: diff changeset	100 """ Creates a STAR index from a FASTA genome reference """
3ba5983012cf Uploaded mzeidler parents: diff changeset	101
3ba5983012cf Uploaded mzeidler parents: diff changeset	102 reference_files = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	103 ['-r', '--reference_file'], str, list=True, mandatory=True,
3ba5983012cf Uploaded mzeidler parents: diff changeset	104 help="Sets the reference genome(s) FASTA file." +
3ba5983012cf Uploaded mzeidler parents: diff changeset	105 " Multiple occurrences of this parameter are allowed.")
3ba5983012cf Uploaded mzeidler parents: diff changeset	106 index_dir = cli.SwitchAttr(['-i', '--index_dir'], str, mandatory=True,
3ba5983012cf Uploaded mzeidler parents: diff changeset	107 help="Sets the index output directory." +
3ba5983012cf Uploaded mzeidler parents: diff changeset	108 " Directory will be generated if not existing." +
3ba5983012cf Uploaded mzeidler parents: diff changeset	109 " Directory will be filled with several index files.")
3ba5983012cf Uploaded mzeidler parents: diff changeset	110 threads = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	111 ['-t', '--threads'], cli.Range(1, 512), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	112 help="Sets the number of threads to use",
3ba5983012cf Uploaded mzeidler parents: diff changeset	113 default=1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	114 max_ram = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	115 ['-m'], cli.Range(1, 400000000000), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	116 help="Sets the maximum amount of memory (RAM) to use (in bytes)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	117 default=400000000000)
3ba5983012cf Uploaded mzeidler parents: diff changeset	118 path = cli.SwitchAttr(['-p', '--path'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	119 help="Path to STAR executable",
3ba5983012cf Uploaded mzeidler parents: diff changeset	120 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	121 sparse = cli.Flag(
3ba5983012cf Uploaded mzeidler parents: diff changeset	122 ["-s", "--sparse"], help="If given, a sparse index that requires less " +
3ba5983012cf Uploaded mzeidler parents: diff changeset	123 " RAM in the mapping phase will be constructed")
3ba5983012cf Uploaded mzeidler parents: diff changeset	124
3ba5983012cf Uploaded mzeidler parents: diff changeset	125 debug = cli.Flag(["-d", "--debug"], help="Enable debug output")
3ba5983012cf Uploaded mzeidler parents: diff changeset	126
3ba5983012cf Uploaded mzeidler parents: diff changeset	127 def main(self):
3ba5983012cf Uploaded mzeidler parents: diff changeset	128
3ba5983012cf Uploaded mzeidler parents: diff changeset	129 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	130 logging.getLogger().setLevel(logging.DEBUG)
3ba5983012cf Uploaded mzeidler parents: diff changeset	131
3ba5983012cf Uploaded mzeidler parents: diff changeset	132 # Obtain star executable
3ba5983012cf Uploaded mzeidler parents: diff changeset	133 star = [self.path and self.path or 'STAR']
3ba5983012cf Uploaded mzeidler parents: diff changeset	134
3ba5983012cf Uploaded mzeidler parents: diff changeset	135 # Check if genome directory is existing
3ba5983012cf Uploaded mzeidler parents: diff changeset	136 for reference_file in self.reference_files:
3ba5983012cf Uploaded mzeidler parents: diff changeset	137 if not os.path.exists(reference_file):
3ba5983012cf Uploaded mzeidler parents: diff changeset	138 sys.stdout.write(
3ba5983012cf Uploaded mzeidler parents: diff changeset	139 'Reference file %s nor existing, exiting' % reference_file)
3ba5983012cf Uploaded mzeidler parents: diff changeset	140 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	141
3ba5983012cf Uploaded mzeidler parents: diff changeset	142 # Check if output directory is existing
3ba5983012cf Uploaded mzeidler parents: diff changeset	143 if not os.path.exists(self.index_dir):
3ba5983012cf Uploaded mzeidler parents: diff changeset	144 logging.debug(
3ba5983012cf Uploaded mzeidler parents: diff changeset	145 'Making output directory for index at %s' % self.index_dir)
3ba5983012cf Uploaded mzeidler parents: diff changeset	146 os.makedirs(self.index_dir)
3ba5983012cf Uploaded mzeidler parents: diff changeset	147
3ba5983012cf Uploaded mzeidler parents: diff changeset	148 # # Make named pipe to extract genomes
3ba5983012cf Uploaded mzeidler parents: diff changeset	149 # pipe_path = os.path.abspath(os.path.join(self.genome_dir, 'pipe.fa'))
3ba5983012cf Uploaded mzeidler parents: diff changeset	150 # if os.path.exists(pipe_path):
3ba5983012cf Uploaded mzeidler parents: diff changeset	151 # os.unlink(pipe_path)
3ba5983012cf Uploaded mzeidler parents: diff changeset	152 # os.mkfifo(pipe_path)
3ba5983012cf Uploaded mzeidler parents: diff changeset	153
3ba5983012cf Uploaded mzeidler parents: diff changeset	154 # Make star command line
3ba5983012cf Uploaded mzeidler parents: diff changeset	155 cline = star + ['--runMode', 'genomeGenerate',
3ba5983012cf Uploaded mzeidler parents: diff changeset	156 '--genomeDir', self.index_dir,
3ba5983012cf Uploaded mzeidler parents: diff changeset	157 '--limitGenomeGenerateRAM', str(self.max_ram),
3ba5983012cf Uploaded mzeidler parents: diff changeset	158 '--runThreadN', str(self.threads),
3ba5983012cf Uploaded mzeidler parents: diff changeset	159 '--genomeFastaFiles'] + self.reference_files
3ba5983012cf Uploaded mzeidler parents: diff changeset	160
3ba5983012cf Uploaded mzeidler parents: diff changeset	161 # Add parameters for sparse (memory-saving) index generation
3ba5983012cf Uploaded mzeidler parents: diff changeset	162 if self.sparse:
3ba5983012cf Uploaded mzeidler parents: diff changeset	163 cline += ['--genomeSAsparseD', '2',
3ba5983012cf Uploaded mzeidler parents: diff changeset	164 '--genomeChrBinNbits', '12',
3ba5983012cf Uploaded mzeidler parents: diff changeset	165 '--genomeSAindexNbases', '13']
3ba5983012cf Uploaded mzeidler parents: diff changeset	166
3ba5983012cf Uploaded mzeidler parents: diff changeset	167 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	168 cline += ['--genomeSAsparseD', '1',
3ba5983012cf Uploaded mzeidler parents: diff changeset	169 '--genomeChrBinNbits', '18',
3ba5983012cf Uploaded mzeidler parents: diff changeset	170 '--genomeSAindexNbases', '15']
3ba5983012cf Uploaded mzeidler parents: diff changeset	171
3ba5983012cf Uploaded mzeidler parents: diff changeset	172 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	173 print ' '.join(cline)
3ba5983012cf Uploaded mzeidler parents: diff changeset	174
3ba5983012cf Uploaded mzeidler parents: diff changeset	175 # Run STAR reference generation process
3ba5983012cf Uploaded mzeidler parents: diff changeset	176 star_process = subprocess.Popen(' '.join(cline), shell=True, stdout=PIPE, stderr=PIPE)
3ba5983012cf Uploaded mzeidler parents: diff changeset	177
3ba5983012cf Uploaded mzeidler parents: diff changeset	178 # Block until streams are closed by the process
3ba5983012cf Uploaded mzeidler parents: diff changeset	179 stdout, stderr = star_process.communicate()
3ba5983012cf Uploaded mzeidler parents: diff changeset	180
3ba5983012cf Uploaded mzeidler parents: diff changeset	181 if stderr:
3ba5983012cf Uploaded mzeidler parents: diff changeset	182 sys.stderr.write(stderr)
3ba5983012cf Uploaded mzeidler parents: diff changeset	183
3ba5983012cf Uploaded mzeidler parents: diff changeset	184 if self.debug and stdout:
3ba5983012cf Uploaded mzeidler parents: diff changeset	185 print stdout
3ba5983012cf Uploaded mzeidler parents: diff changeset	186
3ba5983012cf Uploaded mzeidler parents: diff changeset	187
3ba5983012cf Uploaded mzeidler parents: diff changeset	188 @CLI.subcommand("dnaindex")
3ba5983012cf Uploaded mzeidler parents: diff changeset	189 class DNAIndex(cli.Application):
3ba5983012cf Uploaded mzeidler parents: diff changeset	190 """ Creates a BWA index from a FASTA reference file """
3ba5983012cf Uploaded mzeidler parents: diff changeset	191
3ba5983012cf Uploaded mzeidler parents: diff changeset	192 reference_file = cli.SwitchAttr(['-r', '--reference_file'], str, mandatory=True,
3ba5983012cf Uploaded mzeidler parents: diff changeset	193 help="Sets the input reference FASTA file.")
3ba5983012cf Uploaded mzeidler parents: diff changeset	194 index_dir = cli.SwitchAttr(['-i', '--index_dir'], str, mandatory=True,
3ba5983012cf Uploaded mzeidler parents: diff changeset	195 help="Sets the index output directory." +
3ba5983012cf Uploaded mzeidler parents: diff changeset	196 " Directory will be generated if not existing." +
3ba5983012cf Uploaded mzeidler parents: diff changeset	197 " Directory will be filled with several index files.")
3ba5983012cf Uploaded mzeidler parents: diff changeset	198 path = cli.SwitchAttr(['-p', '--path'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	199 help="Path to BWA executable",
3ba5983012cf Uploaded mzeidler parents: diff changeset	200 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	201 debug = cli.Flag(["-d", "--debug"], help="Enable debug output")
3ba5983012cf Uploaded mzeidler parents: diff changeset	202
3ba5983012cf Uploaded mzeidler parents: diff changeset	203 if debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	204 logging.getLogger().setLevel(logging.DEBUG)
3ba5983012cf Uploaded mzeidler parents: diff changeset	205
3ba5983012cf Uploaded mzeidler parents: diff changeset	206 def main(self):
3ba5983012cf Uploaded mzeidler parents: diff changeset	207
3ba5983012cf Uploaded mzeidler parents: diff changeset	208 # Obtain star executable
3ba5983012cf Uploaded mzeidler parents: diff changeset	209 bwa = [self.path and self.path or 'bwa']
3ba5983012cf Uploaded mzeidler parents: diff changeset	210
3ba5983012cf Uploaded mzeidler parents: diff changeset	211 # Check if genome directory is existing
3ba5983012cf Uploaded mzeidler parents: diff changeset	212 if not os.path.exists(self.reference_file):
3ba5983012cf Uploaded mzeidler parents: diff changeset	213 sys.stdout.write('Genome file %s nor existing, exiting' % self.reference_file)
3ba5983012cf Uploaded mzeidler parents: diff changeset	214 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	215
3ba5983012cf Uploaded mzeidler parents: diff changeset	216 # Check if output directory is existing
3ba5983012cf Uploaded mzeidler parents: diff changeset	217 if not os.path.exists(self.index_dir):
3ba5983012cf Uploaded mzeidler parents: diff changeset	218 logging.debug('Making output directory %s' % self.index_dir)
3ba5983012cf Uploaded mzeidler parents: diff changeset	219 os.makedirs(self.index_dir)
3ba5983012cf Uploaded mzeidler parents: diff changeset	220
3ba5983012cf Uploaded mzeidler parents: diff changeset	221 # Make star command line
3ba5983012cf Uploaded mzeidler parents: diff changeset	222 cline = bwa + ['index', '-a', 'bwtsw', '-p', os.path.join(self.index_dir, 'index'), self.reference_file]
3ba5983012cf Uploaded mzeidler parents: diff changeset	223
3ba5983012cf Uploaded mzeidler parents: diff changeset	224 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	225 print ' '.join(cline)
3ba5983012cf Uploaded mzeidler parents: diff changeset	226
3ba5983012cf Uploaded mzeidler parents: diff changeset	227 # Run BWA index generation process
3ba5983012cf Uploaded mzeidler parents: diff changeset	228 bwa_process = subprocess.Popen(' '.join(cline), shell=True, stdout=PIPE, stderr=PIPE)
3ba5983012cf Uploaded mzeidler parents: diff changeset	229 stdout, stderr = bwa_process.communicate()
3ba5983012cf Uploaded mzeidler parents: diff changeset	230
3ba5983012cf Uploaded mzeidler parents: diff changeset	231 if stderr:
3ba5983012cf Uploaded mzeidler parents: diff changeset	232 sys.stderr.write(stderr)
3ba5983012cf Uploaded mzeidler parents: diff changeset	233
3ba5983012cf Uploaded mzeidler parents: diff changeset	234 if self.debug and stdout:
3ba5983012cf Uploaded mzeidler parents: diff changeset	235 print stdout
3ba5983012cf Uploaded mzeidler parents: diff changeset	236
3ba5983012cf Uploaded mzeidler parents: diff changeset	237
3ba5983012cf Uploaded mzeidler parents: diff changeset	238
3ba5983012cf Uploaded mzeidler parents: diff changeset	239
3ba5983012cf Uploaded mzeidler parents: diff changeset	240
3ba5983012cf Uploaded mzeidler parents: diff changeset	241 class SAMHits:
3ba5983012cf Uploaded mzeidler parents: diff changeset	242 """ Converts SAM output of mappers into bzipped HIT files. """
3ba5983012cf Uploaded mzeidler parents: diff changeset	243
3ba5983012cf Uploaded mzeidler parents: diff changeset	244 def __init__(self, output_file, sample_id, refseq_filter=None, min_mapping_score=None,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	245 min_alignment_score=None, max_mismatches=None,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	246 max_relative_mismatches=None, min_continiously_matching=None,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	247 filter_complexity=False):
3ba5983012cf Uploaded mzeidler parents: diff changeset	248
3ba5983012cf Uploaded mzeidler parents: diff changeset	249 self.output_file = bz2.BZ2File(output_file, 'wb', buffering=100 * 1024 * 1024)
3ba5983012cf Uploaded mzeidler parents: diff changeset	250 self.sample_id = sample_id.translate(None, NON_ID)
3ba5983012cf Uploaded mzeidler parents: diff changeset	251 self.refseq_filter = refseq_filter
3ba5983012cf Uploaded mzeidler parents: diff changeset	252 self.max_mismatches = max_mismatches
3ba5983012cf Uploaded mzeidler parents: diff changeset	253 self.max_relative_mismatches = max_relative_mismatches
3ba5983012cf Uploaded mzeidler parents: diff changeset	254 self.current_group = []
3ba5983012cf Uploaded mzeidler parents: diff changeset	255 self.min_mapping_score = min_mapping_score
3ba5983012cf Uploaded mzeidler parents: diff changeset	256 self.min_alignment_score = min_alignment_score
3ba5983012cf Uploaded mzeidler parents: diff changeset	257 self.min_continiously_matching = min_continiously_matching
3ba5983012cf Uploaded mzeidler parents: diff changeset	258 self.filter_complexity = filter_complexity
3ba5983012cf Uploaded mzeidler parents: diff changeset	259
3ba5983012cf Uploaded mzeidler parents: diff changeset	260 self.re_matches = re.compile(r'(\d+)M')
3ba5983012cf Uploaded mzeidler parents: diff changeset	261 self.re_dels = re.compile(r'(\d+)D')
3ba5983012cf Uploaded mzeidler parents: diff changeset	262
3ba5983012cf Uploaded mzeidler parents: diff changeset	263 def count(self, parsed_line):
3ba5983012cf Uploaded mzeidler parents: diff changeset	264
3ba5983012cf Uploaded mzeidler parents: diff changeset	265 if parsed_line is None:
3ba5983012cf Uploaded mzeidler parents: diff changeset	266 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	267
3ba5983012cf Uploaded mzeidler parents: diff changeset	268 read_key, read_name, flag, ref_name, ref_position, mapping_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	269 cigar, mate_ref_name, mate_ref_position, insert_size, seq, qual,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	270 is_end1, is_end2, number_mismatches, alignment_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	271 number_hits, is_reverse, is_primary, is_mapped, is_mate_mapped,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	272 is_paired, number_matches, read_end_pos, max_match = parsed_line
3ba5983012cf Uploaded mzeidler parents: diff changeset	273
3ba5983012cf Uploaded mzeidler parents: diff changeset	274 if not is_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	275 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	276
3ba5983012cf Uploaded mzeidler parents: diff changeset	277 if self.filter_complexity:
3ba5983012cf Uploaded mzeidler parents: diff changeset	278
3ba5983012cf Uploaded mzeidler parents: diff changeset	279 avg_compression = float(len(zlib.compress(seq)))/len(seq)
3ba5983012cf Uploaded mzeidler parents: diff changeset	280
3ba5983012cf Uploaded mzeidler parents: diff changeset	281 if avg_compression < 0.5:
3ba5983012cf Uploaded mzeidler parents: diff changeset	282 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	283
3ba5983012cf Uploaded mzeidler parents: diff changeset	284 # length = len(seq)
3ba5983012cf Uploaded mzeidler parents: diff changeset	285 # counts = [seq.count(nuc) for nuc in 'ACGT']
3ba5983012cf Uploaded mzeidler parents: diff changeset	286 # min_count = length * 0.10
3ba5983012cf Uploaded mzeidler parents: diff changeset	287 # max_count = length * 0.50
3ba5983012cf Uploaded mzeidler parents: diff changeset	288 # for count in counts:
3ba5983012cf Uploaded mzeidler parents: diff changeset	289 # if count < min_count or count > max_count:
3ba5983012cf Uploaded mzeidler parents: diff changeset	290 # return None
3ba5983012cf Uploaded mzeidler parents: diff changeset	291
3ba5983012cf Uploaded mzeidler parents: diff changeset	292 # counter = Counter()
3ba5983012cf Uploaded mzeidler parents: diff changeset	293 # for i in range(length - 2):
3ba5983012cf Uploaded mzeidler parents: diff changeset	294 # counter[seq[i: i + 3]] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	295 # maximal = length - 4
3ba5983012cf Uploaded mzeidler parents: diff changeset	296
3ba5983012cf Uploaded mzeidler parents: diff changeset	297 # highest = sum([v for k, v in counter.most_common(2)])
3ba5983012cf Uploaded mzeidler parents: diff changeset	298 # if highest > (maximal / 3.0):
3ba5983012cf Uploaded mzeidler parents: diff changeset	299 # return None
3ba5983012cf Uploaded mzeidler parents: diff changeset	300
3ba5983012cf Uploaded mzeidler parents: diff changeset	301 # self.passed.append(avg_compression)
3ba5983012cf Uploaded mzeidler parents: diff changeset	302
3ba5983012cf Uploaded mzeidler parents: diff changeset	303 pair_id = ''
3ba5983012cf Uploaded mzeidler parents: diff changeset	304 if is_end1:
3ba5983012cf Uploaded mzeidler parents: diff changeset	305 pair_id = '/1'
3ba5983012cf Uploaded mzeidler parents: diff changeset	306
3ba5983012cf Uploaded mzeidler parents: diff changeset	307 elif is_end2:
3ba5983012cf Uploaded mzeidler parents: diff changeset	308 pair_id = '/2'
3ba5983012cf Uploaded mzeidler parents: diff changeset	309
3ba5983012cf Uploaded mzeidler parents: diff changeset	310 read_name = self.sample_id + ';' + read_name + pair_id
3ba5983012cf Uploaded mzeidler parents: diff changeset	311
3ba5983012cf Uploaded mzeidler parents: diff changeset	312 # Initialize new current group
3ba5983012cf Uploaded mzeidler parents: diff changeset	313 if len(self.current_group) == 0:
3ba5983012cf Uploaded mzeidler parents: diff changeset	314 self.current_group = [read_name, seq, []]
3ba5983012cf Uploaded mzeidler parents: diff changeset	315
3ba5983012cf Uploaded mzeidler parents: diff changeset	316 # Write old current group to file
3ba5983012cf Uploaded mzeidler parents: diff changeset	317 if read_name != self.current_group[0]:
3ba5983012cf Uploaded mzeidler parents: diff changeset	318 self._write_group()
3ba5983012cf Uploaded mzeidler parents: diff changeset	319 self.current_group = [read_name, seq, []]
3ba5983012cf Uploaded mzeidler parents: diff changeset	320
3ba5983012cf Uploaded mzeidler parents: diff changeset	321 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	322 refseq_group, family, organism, identifier = ref_name.split(';')[:4]
3ba5983012cf Uploaded mzeidler parents: diff changeset	323 except ValueError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	324 sys.stderr.write('Read mapped to malformed reference sequence %s, skipping\n' % ref_name)
3ba5983012cf Uploaded mzeidler parents: diff changeset	325 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	326
3ba5983012cf Uploaded mzeidler parents: diff changeset	327 if self.min_continiously_matching:
3ba5983012cf Uploaded mzeidler parents: diff changeset	328
3ba5983012cf Uploaded mzeidler parents: diff changeset	329 if self.min_continiously_matching > max_match:
3ba5983012cf Uploaded mzeidler parents: diff changeset	330 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	331
3ba5983012cf Uploaded mzeidler parents: diff changeset	332 if self.max_mismatches\
3ba5983012cf Uploaded mzeidler parents: diff changeset	333 and int(number_mismatches) > self.max_mismatches:
3ba5983012cf Uploaded mzeidler parents: diff changeset	334 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	335
3ba5983012cf Uploaded mzeidler parents: diff changeset	336 if self.max_relative_mismatches\
3ba5983012cf Uploaded mzeidler parents: diff changeset	337 and int(number_mismatches) / float(len(seq))\
3ba5983012cf Uploaded mzeidler parents: diff changeset	338 > self.max_relative_mismatches:
3ba5983012cf Uploaded mzeidler parents: diff changeset	339 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	340
3ba5983012cf Uploaded mzeidler parents: diff changeset	341 if self.min_mapping_score\
3ba5983012cf Uploaded mzeidler parents: diff changeset	342 and self.min_mapping_score > mapping_score:
3ba5983012cf Uploaded mzeidler parents: diff changeset	343 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	344
3ba5983012cf Uploaded mzeidler parents: diff changeset	345 if self.min_alignment_score\
3ba5983012cf Uploaded mzeidler parents: diff changeset	346 and self.min_alignment_score > alignment_score:
3ba5983012cf Uploaded mzeidler parents: diff changeset	347 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	348
3ba5983012cf Uploaded mzeidler parents: diff changeset	349 start = int(ref_position) + 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	350
3ba5983012cf Uploaded mzeidler parents: diff changeset	351 self.current_group[2].append([refseq_group, family, organism, identifier, str(start), str(read_end_pos)])
3ba5983012cf Uploaded mzeidler parents: diff changeset	352
3ba5983012cf Uploaded mzeidler parents: diff changeset	353 def _write_group(self):
3ba5983012cf Uploaded mzeidler parents: diff changeset	354 passed = True
3ba5983012cf Uploaded mzeidler parents: diff changeset	355
3ba5983012cf Uploaded mzeidler parents: diff changeset	356 if self.refseq_filter:
3ba5983012cf Uploaded mzeidler parents: diff changeset	357 passed = False
3ba5983012cf Uploaded mzeidler parents: diff changeset	358 for refseq_group, family, organism, identifier, start, end in self.current_group[2]:
3ba5983012cf Uploaded mzeidler parents: diff changeset	359 if passed:
3ba5983012cf Uploaded mzeidler parents: diff changeset	360 break
3ba5983012cf Uploaded mzeidler parents: diff changeset	361 for f in self.refseq_filter:
3ba5983012cf Uploaded mzeidler parents: diff changeset	362 if refseq_group == f:
3ba5983012cf Uploaded mzeidler parents: diff changeset	363 passed = True
3ba5983012cf Uploaded mzeidler parents: diff changeset	364 break
3ba5983012cf Uploaded mzeidler parents: diff changeset	365 if passed:
3ba5983012cf Uploaded mzeidler parents: diff changeset	366 description = []
3ba5983012cf Uploaded mzeidler parents: diff changeset	367 for identifier in self.current_group[2]:
3ba5983012cf Uploaded mzeidler parents: diff changeset	368 description.append(';'.join(identifier))
3ba5983012cf Uploaded mzeidler parents: diff changeset	369 description = '\|'.join(description)
3ba5983012cf Uploaded mzeidler parents: diff changeset	370
3ba5983012cf Uploaded mzeidler parents: diff changeset	371 record = SeqRecord(Seq(self.current_group[1]))
3ba5983012cf Uploaded mzeidler parents: diff changeset	372 record.id = 'Read;' + self.current_group[0]
3ba5983012cf Uploaded mzeidler parents: diff changeset	373 record.description = description
3ba5983012cf Uploaded mzeidler parents: diff changeset	374
3ba5983012cf Uploaded mzeidler parents: diff changeset	375 SeqIO.write([record], self.output_file, "fasta")
3ba5983012cf Uploaded mzeidler parents: diff changeset	376
3ba5983012cf Uploaded mzeidler parents: diff changeset	377 def write(self):
3ba5983012cf Uploaded mzeidler parents: diff changeset	378
3ba5983012cf Uploaded mzeidler parents: diff changeset	379 self._write_group()
3ba5983012cf Uploaded mzeidler parents: diff changeset	380 self.output_file.close()
3ba5983012cf Uploaded mzeidler parents: diff changeset	381
3ba5983012cf Uploaded mzeidler parents: diff changeset	382 class SAMParser:
3ba5983012cf Uploaded mzeidler parents: diff changeset	383
3ba5983012cf Uploaded mzeidler parents: diff changeset	384 def parse(self, line):
3ba5983012cf Uploaded mzeidler parents: diff changeset	385
3ba5983012cf Uploaded mzeidler parents: diff changeset	386 if line[0] == '@':
3ba5983012cf Uploaded mzeidler parents: diff changeset	387 return None
3ba5983012cf Uploaded mzeidler parents: diff changeset	388
3ba5983012cf Uploaded mzeidler parents: diff changeset	389 alignment = HTSeq._HTSeq.SAM_Alignment.from_SAM_line(line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	390 read_name = alignment.read.name
3ba5983012cf Uploaded mzeidler parents: diff changeset	391 seq = alignment.read.seq
3ba5983012cf Uploaded mzeidler parents: diff changeset	392 qual = alignment.read.qual
3ba5983012cf Uploaded mzeidler parents: diff changeset	393 flag = alignment.flag
3ba5983012cf Uploaded mzeidler parents: diff changeset	394 cigar = None
3ba5983012cf Uploaded mzeidler parents: diff changeset	395
3ba5983012cf Uploaded mzeidler parents: diff changeset	396 is_paired = (flag & 1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	397 is_mapped = not (flag & 4)
3ba5983012cf Uploaded mzeidler parents: diff changeset	398 is_mate_mapped = alignment.mate_aligned is not None #not (flag & 8)
3ba5983012cf Uploaded mzeidler parents: diff changeset	399 is_reverse = (flag & 16)
3ba5983012cf Uploaded mzeidler parents: diff changeset	400 is_end1 = (flag & 64)
3ba5983012cf Uploaded mzeidler parents: diff changeset	401 is_end2 = (flag & 128)
3ba5983012cf Uploaded mzeidler parents: diff changeset	402 is_primary = not (flag & 256)
3ba5983012cf Uploaded mzeidler parents: diff changeset	403
3ba5983012cf Uploaded mzeidler parents: diff changeset	404 read_key = (read_name, is_end1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	405
3ba5983012cf Uploaded mzeidler parents: diff changeset	406 ref_name = None
3ba5983012cf Uploaded mzeidler parents: diff changeset	407 ref_position = None
3ba5983012cf Uploaded mzeidler parents: diff changeset	408 mapping_score = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	409 mate_ref_name = None
3ba5983012cf Uploaded mzeidler parents: diff changeset	410 mate_ref_position = None
3ba5983012cf Uploaded mzeidler parents: diff changeset	411 insert_size = None
3ba5983012cf Uploaded mzeidler parents: diff changeset	412 alignment_score = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	413 read_end_pos = None
3ba5983012cf Uploaded mzeidler parents: diff changeset	414
3ba5983012cf Uploaded mzeidler parents: diff changeset	415 if is_mate_mapped and alignment.mate_start:
3ba5983012cf Uploaded mzeidler parents: diff changeset	416 mate_ref_name = alignment.mate_start.chrom
3ba5983012cf Uploaded mzeidler parents: diff changeset	417 mate_ref_position = alignment.mate_start.start
3ba5983012cf Uploaded mzeidler parents: diff changeset	418
3ba5983012cf Uploaded mzeidler parents: diff changeset	419 number_hits = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	420 alignment_score = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	421 number_mismatches = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	422
3ba5983012cf Uploaded mzeidler parents: diff changeset	423 number_matches = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	424 max_match = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	425
3ba5983012cf Uploaded mzeidler parents: diff changeset	426 if is_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	427
3ba5983012cf Uploaded mzeidler parents: diff changeset	428 ref_name = alignment.iv.chrom
3ba5983012cf Uploaded mzeidler parents: diff changeset	429 ref_position = alignment.iv.start
3ba5983012cf Uploaded mzeidler parents: diff changeset	430 read_end_pos = alignment.iv.end
3ba5983012cf Uploaded mzeidler parents: diff changeset	431 alignment_score = alignment.aQual
3ba5983012cf Uploaded mzeidler parents: diff changeset	432 cigar = alignment.cigar
3ba5983012cf Uploaded mzeidler parents: diff changeset	433
3ba5983012cf Uploaded mzeidler parents: diff changeset	434 if is_mate_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	435 insert_size = alignment.inferred_insert_size
3ba5983012cf Uploaded mzeidler parents: diff changeset	436
3ba5983012cf Uploaded mzeidler parents: diff changeset	437 for c in cigar:
3ba5983012cf Uploaded mzeidler parents: diff changeset	438 if c.type == 'M':
3ba5983012cf Uploaded mzeidler parents: diff changeset	439 number_matches += c.size
3ba5983012cf Uploaded mzeidler parents: diff changeset	440 max_match = max(max_match, c.size)
3ba5983012cf Uploaded mzeidler parents: diff changeset	441
3ba5983012cf Uploaded mzeidler parents: diff changeset	442 for tag, value in alignment.optional_fields:
3ba5983012cf Uploaded mzeidler parents: diff changeset	443 if tag == 'NM':
3ba5983012cf Uploaded mzeidler parents: diff changeset	444 number_hits = value
3ba5983012cf Uploaded mzeidler parents: diff changeset	445 elif tag == 'AS':
3ba5983012cf Uploaded mzeidler parents: diff changeset	446 alignment_score = value
3ba5983012cf Uploaded mzeidler parents: diff changeset	447 elif tag == 'NH':
3ba5983012cf Uploaded mzeidler parents: diff changeset	448 number_mismatches = value
3ba5983012cf Uploaded mzeidler parents: diff changeset	449
3ba5983012cf Uploaded mzeidler parents: diff changeset	450 return read_key, read_name, flag, ref_name, ref_position, mapping_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	451 cigar, mate_ref_name, mate_ref_position, insert_size, seq, qual,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	452 is_end1, is_end2, number_mismatches, alignment_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	453 number_hits, is_reverse, is_primary, is_mapped, is_mate_mapped,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	454 is_paired, number_matches, read_end_pos, max_match
3ba5983012cf Uploaded mzeidler parents: diff changeset	455
3ba5983012cf Uploaded mzeidler parents: diff changeset	456
3ba5983012cf Uploaded mzeidler parents: diff changeset	457 class SAMQuality:
3ba5983012cf Uploaded mzeidler parents: diff changeset	458
3ba5983012cf Uploaded mzeidler parents: diff changeset	459 def __init__(self, file_path):
3ba5983012cf Uploaded mzeidler parents: diff changeset	460
3ba5983012cf Uploaded mzeidler parents: diff changeset	461 self.file_path = file_path
3ba5983012cf Uploaded mzeidler parents: diff changeset	462
3ba5983012cf Uploaded mzeidler parents: diff changeset	463 self.stored = defaultdict(Counter)
3ba5983012cf Uploaded mzeidler parents: diff changeset	464 self.all_references = defaultdict(int)
3ba5983012cf Uploaded mzeidler parents: diff changeset	465 self.primary_references = defaultdict(int)
3ba5983012cf Uploaded mzeidler parents: diff changeset	466 self.complement = string.maketrans('ATCGN', 'TAGCN')
3ba5983012cf Uploaded mzeidler parents: diff changeset	467
3ba5983012cf Uploaded mzeidler parents: diff changeset	468 if KHMER_AVAILABLE:
3ba5983012cf Uploaded mzeidler parents: diff changeset	469 self.ktable = khmer.new_ktable(10)
3ba5983012cf Uploaded mzeidler parents: diff changeset	470
3ba5983012cf Uploaded mzeidler parents: diff changeset	471 def _get_complement(self, sequence):
3ba5983012cf Uploaded mzeidler parents: diff changeset	472
3ba5983012cf Uploaded mzeidler parents: diff changeset	473 return sequence.translate(self.complement)[::-1]
3ba5983012cf Uploaded mzeidler parents: diff changeset	474
3ba5983012cf Uploaded mzeidler parents: diff changeset	475 def _get_summary(self, counter):
3ba5983012cf Uploaded mzeidler parents: diff changeset	476 """"Returns five numbers (sum, extrema, mean, and std)
3ba5983012cf Uploaded mzeidler parents: diff changeset	477 for a max_frequency counter """
3ba5983012cf Uploaded mzeidler parents: diff changeset	478
3ba5983012cf Uploaded mzeidler parents: diff changeset	479 maximum = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	480 minimum = sys.maxint
3ba5983012cf Uploaded mzeidler parents: diff changeset	481 thesum = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	482 allcount = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	483 mode = [0, None]
3ba5983012cf Uploaded mzeidler parents: diff changeset	484
3ba5983012cf Uploaded mzeidler parents: diff changeset	485 items = 0.0
3ba5983012cf Uploaded mzeidler parents: diff changeset	486 mean = 0.0
3ba5983012cf Uploaded mzeidler parents: diff changeset	487 m2 = 0.0
3ba5983012cf Uploaded mzeidler parents: diff changeset	488 variance = 0.0
3ba5983012cf Uploaded mzeidler parents: diff changeset	489
3ba5983012cf Uploaded mzeidler parents: diff changeset	490 for item in counter:
3ba5983012cf Uploaded mzeidler parents: diff changeset	491
3ba5983012cf Uploaded mzeidler parents: diff changeset	492 count = counter[item]
3ba5983012cf Uploaded mzeidler parents: diff changeset	493 if count > mode[0]:
3ba5983012cf Uploaded mzeidler parents: diff changeset	494 mode = [count, item]
3ba5983012cf Uploaded mzeidler parents: diff changeset	495
3ba5983012cf Uploaded mzeidler parents: diff changeset	496 allcount += count
3ba5983012cf Uploaded mzeidler parents: diff changeset	497 maximum = max(maximum, item)
3ba5983012cf Uploaded mzeidler parents: diff changeset	498 minimum = min(minimum, item)
3ba5983012cf Uploaded mzeidler parents: diff changeset	499 thesum += (count * item)
3ba5983012cf Uploaded mzeidler parents: diff changeset	500
3ba5983012cf Uploaded mzeidler parents: diff changeset	501 x = 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	502 while x <= count:
3ba5983012cf Uploaded mzeidler parents: diff changeset	503 items += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	504 delta = item - mean
3ba5983012cf Uploaded mzeidler parents: diff changeset	505 mean = mean + delta / items
3ba5983012cf Uploaded mzeidler parents: diff changeset	506 m2 = m2 + delta * (item - mean)
3ba5983012cf Uploaded mzeidler parents: diff changeset	507 variance = m2 / items
3ba5983012cf Uploaded mzeidler parents: diff changeset	508 x += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	509
3ba5983012cf Uploaded mzeidler parents: diff changeset	510 std = math.sqrt(variance)
3ba5983012cf Uploaded mzeidler parents: diff changeset	511
3ba5983012cf Uploaded mzeidler parents: diff changeset	512 return allcount, thesum, minimum, maximum, mode[1], mean, std
3ba5983012cf Uploaded mzeidler parents: diff changeset	513
3ba5983012cf Uploaded mzeidler parents: diff changeset	514
3ba5983012cf Uploaded mzeidler parents: diff changeset	515 def _to_unit(self, item, is_percentage=False):
3ba5983012cf Uploaded mzeidler parents: diff changeset	516 """ Convert a numeric to a string with metric units """
3ba5983012cf Uploaded mzeidler parents: diff changeset	517
3ba5983012cf Uploaded mzeidler parents: diff changeset	518 if is_percentage:
3ba5983012cf Uploaded mzeidler parents: diff changeset	519 return ('%-.3f' % (item * 100)) + '%'
3ba5983012cf Uploaded mzeidler parents: diff changeset	520 converted = None
3ba5983012cf Uploaded mzeidler parents: diff changeset	521 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	522 item = float(item)
3ba5983012cf Uploaded mzeidler parents: diff changeset	523 if item > 10**12:
3ba5983012cf Uploaded mzeidler parents: diff changeset	524 converted = str(round(item / 10**9,3))+'P'
3ba5983012cf Uploaded mzeidler parents: diff changeset	525 elif item > 10**9:
3ba5983012cf Uploaded mzeidler parents: diff changeset	526 converted = str(round(item / 10**9,3))+'G'
3ba5983012cf Uploaded mzeidler parents: diff changeset	527 elif item > 10**6:
3ba5983012cf Uploaded mzeidler parents: diff changeset	528 converted = str(round(item / 10**6,3))+'M'
3ba5983012cf Uploaded mzeidler parents: diff changeset	529 elif item > 10**3:
3ba5983012cf Uploaded mzeidler parents: diff changeset	530 converted = str(round(item / 10**3,3))+'K'
3ba5983012cf Uploaded mzeidler parents: diff changeset	531 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	532 converted = str(round(item,3))
3ba5983012cf Uploaded mzeidler parents: diff changeset	533 except:
3ba5983012cf Uploaded mzeidler parents: diff changeset	534 converted = str(item)
3ba5983012cf Uploaded mzeidler parents: diff changeset	535
3ba5983012cf Uploaded mzeidler parents: diff changeset	536 return converted
3ba5983012cf Uploaded mzeidler parents: diff changeset	537
3ba5983012cf Uploaded mzeidler parents: diff changeset	538 def _str_metrics(self, data):
3ba5983012cf Uploaded mzeidler parents: diff changeset	539
3ba5983012cf Uploaded mzeidler parents: diff changeset	540 str_metrics = []
3ba5983012cf Uploaded mzeidler parents: diff changeset	541
3ba5983012cf Uploaded mzeidler parents: diff changeset	542 for (item, metric) in sorted(data.keys()):
3ba5983012cf Uploaded mzeidler parents: diff changeset	543 counter = data[(item, metric)]
3ba5983012cf Uploaded mzeidler parents: diff changeset	544 if not hasattr(counter.iterkeys().next(), 'real'):
3ba5983012cf Uploaded mzeidler parents: diff changeset	545 for element, count in counter.most_common():
3ba5983012cf Uploaded mzeidler parents: diff changeset	546 str_metrics.append(self._str_metric(item, metric, element, count, no_units=True))
3ba5983012cf Uploaded mzeidler parents: diff changeset	547 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	548 summary = self._get_summary(counter)
3ba5983012cf Uploaded mzeidler parents: diff changeset	549 str_metrics.append(self._str_metric(item, metric, *summary))
3ba5983012cf Uploaded mzeidler parents: diff changeset	550
3ba5983012cf Uploaded mzeidler parents: diff changeset	551 return str_metrics
3ba5983012cf Uploaded mzeidler parents: diff changeset	552
3ba5983012cf Uploaded mzeidler parents: diff changeset	553 def _str_metric(self, item, metric, count, thesum='', minimum='',\
3ba5983012cf Uploaded mzeidler parents: diff changeset	554 maximum='', mode='', mean='', std='', no_units=False):
3ba5983012cf Uploaded mzeidler parents: diff changeset	555
3ba5983012cf Uploaded mzeidler parents: diff changeset	556 counters = [count, thesum, minimum, maximum, mode, mean, std]
3ba5983012cf Uploaded mzeidler parents: diff changeset	557 counters = map(str, counters)
3ba5983012cf Uploaded mzeidler parents: diff changeset	558
3ba5983012cf Uploaded mzeidler parents: diff changeset	559 if no_units:
3ba5983012cf Uploaded mzeidler parents: diff changeset	560 items = [item, metric] + counters
3ba5983012cf Uploaded mzeidler parents: diff changeset	561 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	562 units = map(self._to_unit, counters)
3ba5983012cf Uploaded mzeidler parents: diff changeset	563 items = [item, metric] + units
3ba5983012cf Uploaded mzeidler parents: diff changeset	564
3ba5983012cf Uploaded mzeidler parents: diff changeset	565 return '%-15s\t%-60s\t%12s\t%12s\t%12s\t%12s\t%12s\t%12s\t%12s\n' \
3ba5983012cf Uploaded mzeidler parents: diff changeset	566 % tuple(items)
3ba5983012cf Uploaded mzeidler parents: diff changeset	567
3ba5983012cf Uploaded mzeidler parents: diff changeset	568
3ba5983012cf Uploaded mzeidler parents: diff changeset	569 def _count_read(self, metric, data, sample):
3ba5983012cf Uploaded mzeidler parents: diff changeset	570
3ba5983012cf Uploaded mzeidler parents: diff changeset	571 item = 'read'
3ba5983012cf Uploaded mzeidler parents: diff changeset	572
3ba5983012cf Uploaded mzeidler parents: diff changeset	573 (insert_size, alignment_score, mapping_score, length,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	574 q20_length, avg_phred_quality, number_hits, is_reverse) = data
3ba5983012cf Uploaded mzeidler parents: diff changeset	575
3ba5983012cf Uploaded mzeidler parents: diff changeset	576 self.stored[(item, metric + ' mappings')][number_hits] += sample
3ba5983012cf Uploaded mzeidler parents: diff changeset	577 self.stored[(item, metric + ' insert')][insert_size] += sample
3ba5983012cf Uploaded mzeidler parents: diff changeset	578
3ba5983012cf Uploaded mzeidler parents: diff changeset	579
3ba5983012cf Uploaded mzeidler parents: diff changeset	580 def _count_segment(self, metric, data, sample):
3ba5983012cf Uploaded mzeidler parents: diff changeset	581
3ba5983012cf Uploaded mzeidler parents: diff changeset	582 item = 'segment'
3ba5983012cf Uploaded mzeidler parents: diff changeset	583
3ba5983012cf Uploaded mzeidler parents: diff changeset	584 (insert_size, alignment_score, mapping_score, length,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	585 q20_length, avg_phred_quality, number_hits, is_reverse) = data
3ba5983012cf Uploaded mzeidler parents: diff changeset	586
3ba5983012cf Uploaded mzeidler parents: diff changeset	587 self.stored[(item, metric + ' algq')][alignment_score] += sample
3ba5983012cf Uploaded mzeidler parents: diff changeset	588 self.stored[(item, metric + ' mapq')][mapping_score] += sample
3ba5983012cf Uploaded mzeidler parents: diff changeset	589 self.stored[(item, metric + ' length')][length] += sample
3ba5983012cf Uploaded mzeidler parents: diff changeset	590 self.stored[(item, metric + ' q20length')][q20_length] += sample
3ba5983012cf Uploaded mzeidler parents: diff changeset	591 self.stored[(item, metric + ' meanbasequal')][avg_phred_quality] += sample
3ba5983012cf Uploaded mzeidler parents: diff changeset	592 self.stored[(item, metric + ' reverse')][is_reverse] += sample
3ba5983012cf Uploaded mzeidler parents: diff changeset	593
3ba5983012cf Uploaded mzeidler parents: diff changeset	594 def count(self, parsed_line):
3ba5983012cf Uploaded mzeidler parents: diff changeset	595
3ba5983012cf Uploaded mzeidler parents: diff changeset	596 if parsed_line is None:
3ba5983012cf Uploaded mzeidler parents: diff changeset	597 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	598
3ba5983012cf Uploaded mzeidler parents: diff changeset	599 #print_metric('Item' , 'Metric', 'Count', 'Sum', 'Min', 'Max', 'Mode', 'Mean', 'STD')
3ba5983012cf Uploaded mzeidler parents: diff changeset	600
3ba5983012cf Uploaded mzeidler parents: diff changeset	601 read_key, read_name, flag, ref_name, ref_position, mapping_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	602 cigar, mate_ref_name, mate_ref_position, insert_size, seq, qual,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	603 is_end1, is_end2, number_mismatches, alignment_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	604 number_hits, is_reverse, is_primary, is_mapped, is_mate_mapped,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	605 is_paired, number_matches, read_end_pos, max_match = parsed_line
3ba5983012cf Uploaded mzeidler parents: diff changeset	606
3ba5983012cf Uploaded mzeidler parents: diff changeset	607 phred_quality = [q - 33 for q in qual]
3ba5983012cf Uploaded mzeidler parents: diff changeset	608 avg_phred_quality = sum(phred_quality) / float(len(phred_quality))
3ba5983012cf Uploaded mzeidler parents: diff changeset	609 length = len(seq)
3ba5983012cf Uploaded mzeidler parents: diff changeset	610 mate_reference_id = mate_ref_name
3ba5983012cf Uploaded mzeidler parents: diff changeset	611 reference_id = ref_name
3ba5983012cf Uploaded mzeidler parents: diff changeset	612 reference = reference_id is not None and reference_id != '*'
3ba5983012cf Uploaded mzeidler parents: diff changeset	613 insert_size = insert_size and abs(insert_size) or insert_size
3ba5983012cf Uploaded mzeidler parents: diff changeset	614 is_segment1 = not is_paired or (is_paired and is_end1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	615 is_reverse = is_reverse
3ba5983012cf Uploaded mzeidler parents: diff changeset	616 is_unique = is_primary and number_hits == 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	617 is_translocation = is_paired and is_mapped and is_mate_mapped\
3ba5983012cf Uploaded mzeidler parents: diff changeset	618 and (mate_reference_id != '=' and reference_id != mate_reference_id)
3ba5983012cf Uploaded mzeidler parents: diff changeset	619 is_part_of_doublemap = is_paired and is_mapped and is_mate_mapped
3ba5983012cf Uploaded mzeidler parents: diff changeset	620 is_part_of_halfmap = is_paired and (is_mapped != is_mate_mapped)
3ba5983012cf Uploaded mzeidler parents: diff changeset	621 is_part_of_nomap = is_paired and not is_mapped and not is_mate_mapped
3ba5983012cf Uploaded mzeidler parents: diff changeset	622
3ba5983012cf Uploaded mzeidler parents: diff changeset	623
3ba5983012cf Uploaded mzeidler parents: diff changeset	624 # Count length until first low quality base call
3ba5983012cf Uploaded mzeidler parents: diff changeset	625 q20_length = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	626 for q in phred_quality:
3ba5983012cf Uploaded mzeidler parents: diff changeset	627 if q < 20:
3ba5983012cf Uploaded mzeidler parents: diff changeset	628 break
3ba5983012cf Uploaded mzeidler parents: diff changeset	629 q20_length += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	630
3ba5983012cf Uploaded mzeidler parents: diff changeset	631 # Count kmers
3ba5983012cf Uploaded mzeidler parents: diff changeset	632 if KHMER_AVAILABLE:
3ba5983012cf Uploaded mzeidler parents: diff changeset	633 if not is_reverse:
3ba5983012cf Uploaded mzeidler parents: diff changeset	634 self.ktable.consume(seq)
3ba5983012cf Uploaded mzeidler parents: diff changeset	635 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	636 self.ktable.consume(self._get_complement(seq))
3ba5983012cf Uploaded mzeidler parents: diff changeset	637
3ba5983012cf Uploaded mzeidler parents: diff changeset	638 if reference:
3ba5983012cf Uploaded mzeidler parents: diff changeset	639
3ba5983012cf Uploaded mzeidler parents: diff changeset	640 self.all_references[reference_id] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	641
3ba5983012cf Uploaded mzeidler parents: diff changeset	642 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	643 self.primary_references[reference_id] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	644
3ba5983012cf Uploaded mzeidler parents: diff changeset	645
3ba5983012cf Uploaded mzeidler parents: diff changeset	646 data = (insert_size, alignment_score, mapping_score, length,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	647 q20_length, avg_phred_quality, number_hits, is_reverse)
3ba5983012cf Uploaded mzeidler parents: diff changeset	648
3ba5983012cf Uploaded mzeidler parents: diff changeset	649 sample = 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	650
3ba5983012cf Uploaded mzeidler parents: diff changeset	651 self._count_segment('sequenced', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	652 if is_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	653 self._count_segment('sequenced mapped multi', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	654 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	655 self._count_segment('sequenced mapped primary', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	656 if number_hits and is_unique:
3ba5983012cf Uploaded mzeidler parents: diff changeset	657 self._count_segment('sequenced mapped primary unique', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	658
3ba5983012cf Uploaded mzeidler parents: diff changeset	659 if is_segment1:
3ba5983012cf Uploaded mzeidler parents: diff changeset	660 self._count_read('sequenced mapped multi', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	661 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	662 self._count_read('sequenced mapped primary', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	663
3ba5983012cf Uploaded mzeidler parents: diff changeset	664 if is_paired:
3ba5983012cf Uploaded mzeidler parents: diff changeset	665 self._count_segment('sequenced paired', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	666
3ba5983012cf Uploaded mzeidler parents: diff changeset	667 if is_part_of_doublemap:
3ba5983012cf Uploaded mzeidler parents: diff changeset	668 self._count_segment('sequenced paired doublemap', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	669
3ba5983012cf Uploaded mzeidler parents: diff changeset	670 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	671 self._count_segment('sequenced paired doublemap primary', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	672
3ba5983012cf Uploaded mzeidler parents: diff changeset	673 if is_segment1:
3ba5983012cf Uploaded mzeidler parents: diff changeset	674 self._count_read('sequenced paired doublemap multi', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	675
3ba5983012cf Uploaded mzeidler parents: diff changeset	676 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	677 self._count_read('sequenced paired doublemap primary', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	678
3ba5983012cf Uploaded mzeidler parents: diff changeset	679 if number_hits and is_unique:
3ba5983012cf Uploaded mzeidler parents: diff changeset	680 self._count_read('sequenced paired doublemap primary unique', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	681
3ba5983012cf Uploaded mzeidler parents: diff changeset	682 if is_translocation:
3ba5983012cf Uploaded mzeidler parents: diff changeset	683 self._count_read('sequenced paired doublemap primary unique translocation', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	684
3ba5983012cf Uploaded mzeidler parents: diff changeset	685 elif is_part_of_halfmap:
3ba5983012cf Uploaded mzeidler parents: diff changeset	686
3ba5983012cf Uploaded mzeidler parents: diff changeset	687 self._count_segment('sequenced paired halfmap', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	688
3ba5983012cf Uploaded mzeidler parents: diff changeset	689 # The mapped segment
3ba5983012cf Uploaded mzeidler parents: diff changeset	690 if is_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	691
3ba5983012cf Uploaded mzeidler parents: diff changeset	692 self._count_segment('sequenced paired halfmap mapped', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	693
3ba5983012cf Uploaded mzeidler parents: diff changeset	694 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	695
3ba5983012cf Uploaded mzeidler parents: diff changeset	696 self._count_read('sequenced paired halfmap mapped primary', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	697
3ba5983012cf Uploaded mzeidler parents: diff changeset	698 if number_hits and is_unique:
3ba5983012cf Uploaded mzeidler parents: diff changeset	699 self._count_read('sequenced paired halfmap mapped primary unique', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	700
3ba5983012cf Uploaded mzeidler parents: diff changeset	701 elif not is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	702
3ba5983012cf Uploaded mzeidler parents: diff changeset	703 self._count_read('sequenced unpaired mapped multi', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	704
3ba5983012cf Uploaded mzeidler parents: diff changeset	705 # The unmapped segment
3ba5983012cf Uploaded mzeidler parents: diff changeset	706 elif not is_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	707 self._count_segment('sequenced paired halfmap unmapped', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	708
3ba5983012cf Uploaded mzeidler parents: diff changeset	709 elif is_part_of_nomap:
3ba5983012cf Uploaded mzeidler parents: diff changeset	710
3ba5983012cf Uploaded mzeidler parents: diff changeset	711 self._count_segment('sequenced paired nomap', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	712
3ba5983012cf Uploaded mzeidler parents: diff changeset	713 if is_segment1:
3ba5983012cf Uploaded mzeidler parents: diff changeset	714
3ba5983012cf Uploaded mzeidler parents: diff changeset	715 self._count_read('sequenced paired nomap', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	716
3ba5983012cf Uploaded mzeidler parents: diff changeset	717 elif not is_paired:
3ba5983012cf Uploaded mzeidler parents: diff changeset	718
3ba5983012cf Uploaded mzeidler parents: diff changeset	719 self._count_segment('sequenced unpaired', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	720
3ba5983012cf Uploaded mzeidler parents: diff changeset	721 if is_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	722
3ba5983012cf Uploaded mzeidler parents: diff changeset	723 self._count_segment('sequenced unpaired mapped', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	724
3ba5983012cf Uploaded mzeidler parents: diff changeset	725 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	726
3ba5983012cf Uploaded mzeidler parents: diff changeset	727 self._count_read('sequenced unpaired mapped primary', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	728
3ba5983012cf Uploaded mzeidler parents: diff changeset	729 if number_hits and is_unique:
3ba5983012cf Uploaded mzeidler parents: diff changeset	730
3ba5983012cf Uploaded mzeidler parents: diff changeset	731 self._count_read('sequenced paired unpaired mapped primary unique', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	732
3ba5983012cf Uploaded mzeidler parents: diff changeset	733 elif not is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	734
3ba5983012cf Uploaded mzeidler parents: diff changeset	735 self._count_read('sequenced unpaired mapped multi', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	736
3ba5983012cf Uploaded mzeidler parents: diff changeset	737
3ba5983012cf Uploaded mzeidler parents: diff changeset	738 elif not is_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	739
3ba5983012cf Uploaded mzeidler parents: diff changeset	740 self._count_segment('sequenced unpaired unmapped', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	741
3ba5983012cf Uploaded mzeidler parents: diff changeset	742 if is_segment1:
3ba5983012cf Uploaded mzeidler parents: diff changeset	743 self._count_read('sequenced unpaired unmapped', data, sample)
3ba5983012cf Uploaded mzeidler parents: diff changeset	744
3ba5983012cf Uploaded mzeidler parents: diff changeset	745 def write(self):
3ba5983012cf Uploaded mzeidler parents: diff changeset	746
3ba5983012cf Uploaded mzeidler parents: diff changeset	747 with open(self.file_path, 'w') as output_file:
3ba5983012cf Uploaded mzeidler parents: diff changeset	748
3ba5983012cf Uploaded mzeidler parents: diff changeset	749 all_references = sorted([(count, reference) for reference, count\
3ba5983012cf Uploaded mzeidler parents: diff changeset	750 in self.all_references.iteritems()], reverse=True)
3ba5983012cf Uploaded mzeidler parents: diff changeset	751
3ba5983012cf Uploaded mzeidler parents: diff changeset	752 for j, (count, reference) in enumerate(all_references[:30]):
3ba5983012cf Uploaded mzeidler parents: diff changeset	753 self.stored[('segment', 'multireference_' + str(j+1))][reference] = count
3ba5983012cf Uploaded mzeidler parents: diff changeset	754
3ba5983012cf Uploaded mzeidler parents: diff changeset	755 primary_references = sorted([(count, reference) for reference, count\
3ba5983012cf Uploaded mzeidler parents: diff changeset	756 in self.primary_references.iteritems()], reverse=True)
3ba5983012cf Uploaded mzeidler parents: diff changeset	757
3ba5983012cf Uploaded mzeidler parents: diff changeset	758 for j, (count, reference) in enumerate(primary_references[:30]):
3ba5983012cf Uploaded mzeidler parents: diff changeset	759 self.stored[('segment', 'primaryreference_' + str(j+1))][reference] = count
3ba5983012cf Uploaded mzeidler parents: diff changeset	760
3ba5983012cf Uploaded mzeidler parents: diff changeset	761 # Extract top-ranking kmers
3ba5983012cf Uploaded mzeidler parents: diff changeset	762 if KHMER_AVAILABLE:
3ba5983012cf Uploaded mzeidler parents: diff changeset	763 kmer_frequencies = []
3ba5983012cf Uploaded mzeidler parents: diff changeset	764 for i in range(0, self.ktable.n_entries()):
3ba5983012cf Uploaded mzeidler parents: diff changeset	765 n = self.ktable.get(i)
3ba5983012cf Uploaded mzeidler parents: diff changeset	766 if n > 0:
3ba5983012cf Uploaded mzeidler parents: diff changeset	767 kmer_frequencies.append((n, self.ktable.reverse_hash(i)))
3ba5983012cf Uploaded mzeidler parents: diff changeset	768 kmer_frequencies = sorted(kmer_frequencies, reverse=True)
3ba5983012cf Uploaded mzeidler parents: diff changeset	769 for j, (frequency, kmer) in enumerate(kmer_frequencies[:10]):
3ba5983012cf Uploaded mzeidler parents: diff changeset	770 self.stored[('segment', 'kmer_' + str(j+1))][kmer] = frequency
3ba5983012cf Uploaded mzeidler parents: diff changeset	771
3ba5983012cf Uploaded mzeidler parents: diff changeset	772 output_file.writelines(self._str_metrics(self.stored))
3ba5983012cf Uploaded mzeidler parents: diff changeset	773
3ba5983012cf Uploaded mzeidler parents: diff changeset	774
3ba5983012cf Uploaded mzeidler parents: diff changeset	775 class SAMTaxonomy:
3ba5983012cf Uploaded mzeidler parents: diff changeset	776 """ Provides taxonomic summary information from a SAM file stream. """
3ba5983012cf Uploaded mzeidler parents: diff changeset	777
3ba5983012cf Uploaded mzeidler parents: diff changeset	778 def __init__(self, file_path):
3ba5983012cf Uploaded mzeidler parents: diff changeset	779
3ba5983012cf Uploaded mzeidler parents: diff changeset	780 self.file_path = file_path
3ba5983012cf Uploaded mzeidler parents: diff changeset	781
3ba5983012cf Uploaded mzeidler parents: diff changeset	782 self.count_primaries = Counter()
3ba5983012cf Uploaded mzeidler parents: diff changeset	783 self.detailed_information = {}
3ba5983012cf Uploaded mzeidler parents: diff changeset	784
3ba5983012cf Uploaded mzeidler parents: diff changeset	785 self._last_read = (None, None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	786 self._last_read_human_prim = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	787 self._last_read_human_sec = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	788 self._last_organisms = set()
3ba5983012cf Uploaded mzeidler parents: diff changeset	789
3ba5983012cf Uploaded mzeidler parents: diff changeset	790 def count(self, parsed_line):
3ba5983012cf Uploaded mzeidler parents: diff changeset	791
3ba5983012cf Uploaded mzeidler parents: diff changeset	792 if parsed_line is None:
3ba5983012cf Uploaded mzeidler parents: diff changeset	793 return
3ba5983012cf Uploaded mzeidler parents: diff changeset	794
3ba5983012cf Uploaded mzeidler parents: diff changeset	795 read_key, read_name, flag, ref_name, ref_position, mapping_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	796 cigar, mate_ref_name, mate_ref_position, insert_size, seq, qual,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	797 is_end1, is_end2, number_mismatches, alignment_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	798 number_hits, is_reverse, is_primary, is_mapped, is_mate_mapped,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	799 is_paired, number_matches, read_end_pos, max_match = parsed_line
3ba5983012cf Uploaded mzeidler parents: diff changeset	800
3ba5983012cf Uploaded mzeidler parents: diff changeset	801 if is_mapped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	802
3ba5983012cf Uploaded mzeidler parents: diff changeset	803 refseq_group, family, organism, gi = ref_name.split(';')[:4]
3ba5983012cf Uploaded mzeidler parents: diff changeset	804
3ba5983012cf Uploaded mzeidler parents: diff changeset	805 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	806 self.count_primaries[organism] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	807
3ba5983012cf Uploaded mzeidler parents: diff changeset	808 if organism not in self.detailed_information:
3ba5983012cf Uploaded mzeidler parents: diff changeset	809 # refseq_group. family, gis, avg_mapping_score,
3ba5983012cf Uploaded mzeidler parents: diff changeset	810 # avg_seq_length, avg_number_hits, avg_alignment_score, avg_nr_mismatches
3ba5983012cf Uploaded mzeidler parents: diff changeset	811 initial = [refseq_group,
3ba5983012cf Uploaded mzeidler parents: diff changeset	812 family,
3ba5983012cf Uploaded mzeidler parents: diff changeset	813 set([gi]),
3ba5983012cf Uploaded mzeidler parents: diff changeset	814 [int(mapping_score), 1],
3ba5983012cf Uploaded mzeidler parents: diff changeset	815 [len(seq), 1],
3ba5983012cf Uploaded mzeidler parents: diff changeset	816 [0, 0],
3ba5983012cf Uploaded mzeidler parents: diff changeset	817 [alignment_score, 1],
3ba5983012cf Uploaded mzeidler parents: diff changeset	818 [number_mismatches, 1],
3ba5983012cf Uploaded mzeidler parents: diff changeset	819 0,
3ba5983012cf Uploaded mzeidler parents: diff changeset	820 0]
3ba5983012cf Uploaded mzeidler parents: diff changeset	821
3ba5983012cf Uploaded mzeidler parents: diff changeset	822 self.detailed_information[organism] = initial
3ba5983012cf Uploaded mzeidler parents: diff changeset	823
3ba5983012cf Uploaded mzeidler parents: diff changeset	824 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	825 entry = self.detailed_information[organism]
3ba5983012cf Uploaded mzeidler parents: diff changeset	826 entry[2].add(gi)
3ba5983012cf Uploaded mzeidler parents: diff changeset	827 entry[3][0] += int(mapping_score)
3ba5983012cf Uploaded mzeidler parents: diff changeset	828 entry[3][1] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	829 entry[4][0] += len(seq)
3ba5983012cf Uploaded mzeidler parents: diff changeset	830 entry[4][1] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	831 entry[6][0] += alignment_score
3ba5983012cf Uploaded mzeidler parents: diff changeset	832 entry[6][1] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	833 entry[7][0] += number_mismatches
3ba5983012cf Uploaded mzeidler parents: diff changeset	834 entry[7][1] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	835
3ba5983012cf Uploaded mzeidler parents: diff changeset	836 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	837 entry = self.detailed_information[organism]
3ba5983012cf Uploaded mzeidler parents: diff changeset	838 entry[5][0] += number_hits
3ba5983012cf Uploaded mzeidler parents: diff changeset	839 entry[5][1] += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	840
3ba5983012cf Uploaded mzeidler parents: diff changeset	841 if self._last_read == (None, None):
3ba5983012cf Uploaded mzeidler parents: diff changeset	842 self._last_read = read_key
3ba5983012cf Uploaded mzeidler parents: diff changeset	843
3ba5983012cf Uploaded mzeidler parents: diff changeset	844 if self._last_read != read_key:
3ba5983012cf Uploaded mzeidler parents: diff changeset	845
3ba5983012cf Uploaded mzeidler parents: diff changeset	846 for last_organism in self._last_organisms:
3ba5983012cf Uploaded mzeidler parents: diff changeset	847
3ba5983012cf Uploaded mzeidler parents: diff changeset	848 self.detailed_information[last_organism][8]\
3ba5983012cf Uploaded mzeidler parents: diff changeset	849 += self._last_read_human_prim
3ba5983012cf Uploaded mzeidler parents: diff changeset	850
3ba5983012cf Uploaded mzeidler parents: diff changeset	851 self.detailed_information[last_organism][9]\
3ba5983012cf Uploaded mzeidler parents: diff changeset	852 += self._last_read_human_sec
3ba5983012cf Uploaded mzeidler parents: diff changeset	853
3ba5983012cf Uploaded mzeidler parents: diff changeset	854 self._last_read = read_key
3ba5983012cf Uploaded mzeidler parents: diff changeset	855 self._last_organisms = set()
3ba5983012cf Uploaded mzeidler parents: diff changeset	856 self._last_read_human_prim = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	857 self._last_read_human_sec = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	858
3ba5983012cf Uploaded mzeidler parents: diff changeset	859 self._last_organisms.add(organism)
3ba5983012cf Uploaded mzeidler parents: diff changeset	860
3ba5983012cf Uploaded mzeidler parents: diff changeset	861 if organism == 'Homo_sapiens':
3ba5983012cf Uploaded mzeidler parents: diff changeset	862 if is_primary:
3ba5983012cf Uploaded mzeidler parents: diff changeset	863 self._last_read_human_prim += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	864 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	865 self._last_read_human_sec += 1
3ba5983012cf Uploaded mzeidler parents: diff changeset	866
3ba5983012cf Uploaded mzeidler parents: diff changeset	867 def get_summary(self, top=100):
3ba5983012cf Uploaded mzeidler parents: diff changeset	868
3ba5983012cf Uploaded mzeidler parents: diff changeset	869 lines = []
3ba5983012cf Uploaded mzeidler parents: diff changeset	870
3ba5983012cf Uploaded mzeidler parents: diff changeset	871 lines.append('%10s\t%20s\t%20s\t%-20s\t%10s\t%10s\t%10s\t%5s\t%5s\t%5s\t%10s\t%10s\n'\
3ba5983012cf Uploaded mzeidler parents: diff changeset	872 % ('Count', 'Group', 'Family', 'Organism', 'Targets', 'ReadLen', 'Hits', 'Map', 'Algn', 'Mism', 'HuP', 'HuS'))
3ba5983012cf Uploaded mzeidler parents: diff changeset	873
3ba5983012cf Uploaded mzeidler parents: diff changeset	874 top_organisms = self.count_primaries.most_common(top)
3ba5983012cf Uploaded mzeidler parents: diff changeset	875
3ba5983012cf Uploaded mzeidler parents: diff changeset	876 for organism, count in top_organisms:
3ba5983012cf Uploaded mzeidler parents: diff changeset	877
3ba5983012cf Uploaded mzeidler parents: diff changeset	878 refseq_group, family, identifiers,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	879 avg_mapping_score, avg_seq_length, avg_number_hits,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	880 avg_alignment_score, avg_nr_mismatches, human_prim, human_sec\
3ba5983012cf Uploaded mzeidler parents: diff changeset	881 = self.detailed_information[organism]
3ba5983012cf Uploaded mzeidler parents: diff changeset	882
3ba5983012cf Uploaded mzeidler parents: diff changeset	883 avg_len = int(avg_seq_length[0] / float(avg_seq_length[1]))
3ba5983012cf Uploaded mzeidler parents: diff changeset	884 if avg_number_hits[1] == 0:
3ba5983012cf Uploaded mzeidler parents: diff changeset	885 avg_hits = 0
3ba5983012cf Uploaded mzeidler parents: diff changeset	886 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	887 avg_hits = int(avg_number_hits[
3ba5983012cf Uploaded mzeidler parents: diff changeset	888 0] / float(avg_number_hits[1]))
3ba5983012cf Uploaded mzeidler parents: diff changeset	889
3ba5983012cf Uploaded mzeidler parents: diff changeset	890 avg_mapping_score = int(avg_mapping_score[
3ba5983012cf Uploaded mzeidler parents: diff changeset	891 0] / float(avg_mapping_score[1]))
3ba5983012cf Uploaded mzeidler parents: diff changeset	892
3ba5983012cf Uploaded mzeidler parents: diff changeset	893 avg_alignment_score = int(avg_alignment_score[
3ba5983012cf Uploaded mzeidler parents: diff changeset	894 0] / float(avg_alignment_score[1]))
3ba5983012cf Uploaded mzeidler parents: diff changeset	895
3ba5983012cf Uploaded mzeidler parents: diff changeset	896 avg_nr_mismatches = int(avg_nr_mismatches[
3ba5983012cf Uploaded mzeidler parents: diff changeset	897 0] / float(avg_nr_mismatches[1]))
3ba5983012cf Uploaded mzeidler parents: diff changeset	898
3ba5983012cf Uploaded mzeidler parents: diff changeset	899 nr_ids = len(identifiers)
3ba5983012cf Uploaded mzeidler parents: diff changeset	900
3ba5983012cf Uploaded mzeidler parents: diff changeset	901 if count > 10**6:
3ba5983012cf Uploaded mzeidler parents: diff changeset	902 count = str(round(count / float(10**6), 3)) + 'M'
3ba5983012cf Uploaded mzeidler parents: diff changeset	903 if human_prim > 10**6:
3ba5983012cf Uploaded mzeidler parents: diff changeset	904 human_prim = str(round(human_prim / float(10**6), 3)) + 'M'
3ba5983012cf Uploaded mzeidler parents: diff changeset	905 if human_sec > 10**6:
3ba5983012cf Uploaded mzeidler parents: diff changeset	906 human_sec = str(round(human_sec / float(10**6), 3)) + 'M'
3ba5983012cf Uploaded mzeidler parents: diff changeset	907 if nr_ids > 10**6:
3ba5983012cf Uploaded mzeidler parents: diff changeset	908 nr_ids = str(round(nr_ids / float(10**6), 3)) + 'M'
3ba5983012cf Uploaded mzeidler parents: diff changeset	909
3ba5983012cf Uploaded mzeidler parents: diff changeset	910 lines.append('%10s\t%20s\t%20s\t%-20s\t%10s\t%10i\t%10i\t%5i\t%5i\t%5i\t%10s\t%10s\n'\
3ba5983012cf Uploaded mzeidler parents: diff changeset	911 % (str(count), refseq_group[:20], family[:20], organism[:20],\
3ba5983012cf Uploaded mzeidler parents: diff changeset	912 str(nr_ids), avg_len, avg_hits, avg_mapping_score,\
3ba5983012cf Uploaded mzeidler parents: diff changeset	913 avg_alignment_score, avg_nr_mismatches, str(human_prim),\
3ba5983012cf Uploaded mzeidler parents: diff changeset	914 str(human_sec)))
3ba5983012cf Uploaded mzeidler parents: diff changeset	915
3ba5983012cf Uploaded mzeidler parents: diff changeset	916 return lines
3ba5983012cf Uploaded mzeidler parents: diff changeset	917
3ba5983012cf Uploaded mzeidler parents: diff changeset	918 def write(self):
3ba5983012cf Uploaded mzeidler parents: diff changeset	919
3ba5983012cf Uploaded mzeidler parents: diff changeset	920 with open(self.file_path, 'w') as output_file:
3ba5983012cf Uploaded mzeidler parents: diff changeset	921 output_file.writelines(self.get_summary())
3ba5983012cf Uploaded mzeidler parents: diff changeset	922
3ba5983012cf Uploaded mzeidler parents: diff changeset	923 @CLI.subcommand("rnamap")
3ba5983012cf Uploaded mzeidler parents: diff changeset	924 class RNAmap(cli.Application):
3ba5983012cf Uploaded mzeidler parents: diff changeset	925 """ Map input reads against a STAR index """
3ba5983012cf Uploaded mzeidler parents: diff changeset	926
3ba5983012cf Uploaded mzeidler parents: diff changeset	927 index_dir = cli.SwitchAttr(['-i', '--index_dir'], str, mandatory=True,
3ba5983012cf Uploaded mzeidler parents: diff changeset	928 help="Sets the index output directory")
3ba5983012cf Uploaded mzeidler parents: diff changeset	929
3ba5983012cf Uploaded mzeidler parents: diff changeset	930 threads = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	931 ['-t', '--threads'], cli.Range(1, 512), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	932 help="Sets the number of threads to use",
3ba5983012cf Uploaded mzeidler parents: diff changeset	933 default=1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	934
3ba5983012cf Uploaded mzeidler parents: diff changeset	935 taxonomy = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	936 ['-x', '--taxonomy'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	937 help="Output path for the taxonomy file; setting this option will also enable regular taxonomy output to stdout during mapping",
3ba5983012cf Uploaded mzeidler parents: diff changeset	938 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	939
3ba5983012cf Uploaded mzeidler parents: diff changeset	940 star_path = cli.SwitchAttr(['--star_path'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	941 help="Path to STAR executable",
3ba5983012cf Uploaded mzeidler parents: diff changeset	942 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	943
3ba5983012cf Uploaded mzeidler parents: diff changeset	944 samtools_path = cli.SwitchAttr(['--samtools_path'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	945 help="Path to samtools executable",
3ba5983012cf Uploaded mzeidler parents: diff changeset	946 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	947
3ba5983012cf Uploaded mzeidler parents: diff changeset	948 temp_path = cli.SwitchAttr(['--temporary_path'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	949 help="Path to temporary directory in which to generate temp files. All temp files with be automatically deleted after execution is complete.",
3ba5983012cf Uploaded mzeidler parents: diff changeset	950 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	951
3ba5983012cf Uploaded mzeidler parents: diff changeset	952 min_mapping_score = cli.SwitchAttr(['--min_mapping_score'], cli.Range(1, 255), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	953 help="Mimimum mapping score for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	954 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	955
3ba5983012cf Uploaded mzeidler parents: diff changeset	956 min_alignment_score = cli.SwitchAttr(['--min_alignment_score'], cli.Range(1, 255), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	957 help="Mimimum alignment score for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	958 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	959
3ba5983012cf Uploaded mzeidler parents: diff changeset	960 max_mismatches = cli.SwitchAttr(['--max_mismatches'], cli.Range(0, 10000000), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	961 help="Maximum number of mismatches for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	962 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	963
3ba5983012cf Uploaded mzeidler parents: diff changeset	964 max_relative_mismatches = cli.SwitchAttr(['--max_relative_mismatches'], float, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	965 help="Maximum number of mismatches relative to read length for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	966 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	967
3ba5983012cf Uploaded mzeidler parents: diff changeset	968 min_continiously_matching = cli.SwitchAttr(['--min_continiously_matching'], cli.Range(0, 10000000), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	969 help="Minimum number of continious matches for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	970 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	971
3ba5983012cf Uploaded mzeidler parents: diff changeset	972 filter_complexity = cli.Flag(['--filter_complexity'],
3ba5983012cf Uploaded mzeidler parents: diff changeset	973 help="Discard low-complexity reads (only applied to -v/--virana_hits). Adds some extra processing load to the mapping and may discard important information. Applies to all output files, including quality files (!)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	974 default=False)
3ba5983012cf Uploaded mzeidler parents: diff changeset	975
3ba5983012cf Uploaded mzeidler parents: diff changeset	976 bam = cli.SwitchAttr(['-b', '--bam'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	977 help="Path to unsorted, unindexed output BAM file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	978 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	979
3ba5983012cf Uploaded mzeidler parents: diff changeset	980 sam = cli.SwitchAttr(['-s', '--sam'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	981 help="Path to output SAM file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	982 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	983
3ba5983012cf Uploaded mzeidler parents: diff changeset	984 qual = cli.SwitchAttr(['-q', '--qual'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	985 help="Path to output quality file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	986 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	987
3ba5983012cf Uploaded mzeidler parents: diff changeset	988 hits = cli.SwitchAttr(['-v', '--virana_hits'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	989 help="Path to bzip2-compressed tab-delimited output hit file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	990 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	991
3ba5983012cf Uploaded mzeidler parents: diff changeset	992 sample_id = cli.SwitchAttr(['--sample_id'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	993 help="Alphanumeric string ([0-9a-zA-Z_-]*) used to designate sample information within the hit file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	994 default='no_sample_id')
3ba5983012cf Uploaded mzeidler parents: diff changeset	995
3ba5983012cf Uploaded mzeidler parents: diff changeset	996 unmapped1 = cli.SwitchAttr(['--unmapped_end_1'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	997 help="Output path to uncompressed fastq file containing unmapped reads, first ends only for paired ends.",
3ba5983012cf Uploaded mzeidler parents: diff changeset	998 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	999
3ba5983012cf Uploaded mzeidler parents: diff changeset	1000 unmapped2 = cli.SwitchAttr(['--unmapped_end_2'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1001 help="Output path to uncompressed fastq file containing unmapped reads, second ends only for paired ends.",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1002 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1003
3ba5983012cf Uploaded mzeidler parents: diff changeset	1004 splice_junctions = cli.SwitchAttr(['--splice_junctions'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1005 help="Input path to splice junction file (currently not implemented)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1006 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1007
3ba5983012cf Uploaded mzeidler parents: diff changeset	1008 chimeric_mappings = cli.SwitchAttr(['--chimeric_mappings'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1009 help="Ouput path to SAM file containing chimeric mappings",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1010 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1011
3ba5983012cf Uploaded mzeidler parents: diff changeset	1012 hit_filter = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1013 ['-f', '--virana_hit_filter'], str, list=True, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1014 help="Only generate hit groups that include at last one read mapping to a reference of this reference group.",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1015 default=[])
3ba5983012cf Uploaded mzeidler parents: diff changeset	1016
3ba5983012cf Uploaded mzeidler parents: diff changeset	1017 debug = cli.Flag(["-d", "--debug"], help="Enable debug information")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1018
3ba5983012cf Uploaded mzeidler parents: diff changeset	1019 reads = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1020 ['-r', '--reads'], str, list=True, mandatory=True,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1021 help="Sets the input reads. Add this parameter twice for paired end reads.")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1022
3ba5983012cf Uploaded mzeidler parents: diff changeset	1023 zipped = cli.Flag(["-z", "--zipped"], help="Input reads are zipped")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1024
3ba5983012cf Uploaded mzeidler parents: diff changeset	1025 sensitive = cli.Flag(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1026 ["--sensitive"], help="If given, mapping will process slower and more sensitive")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1027
3ba5983012cf Uploaded mzeidler parents: diff changeset	1028 def main(self):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1029
3ba5983012cf Uploaded mzeidler parents: diff changeset	1030 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1031 logging.getLogger().setLevel(logging.DEBUG)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1032
3ba5983012cf Uploaded mzeidler parents: diff changeset	1033 # Obtain star executable
3ba5983012cf Uploaded mzeidler parents: diff changeset	1034 star = [self.star_path and self.star_path or 'STAR']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1035 samtools = [self.samtools_path and self.samtools_path or 'samtools']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1036
3ba5983012cf Uploaded mzeidler parents: diff changeset	1037 # Check if genome directory is existing
3ba5983012cf Uploaded mzeidler parents: diff changeset	1038 if not os.path.exists(self.index_dir):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1039 sys.stdout.write('Index directory %s not existing, exiting' % self.genome_dir)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1040 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1041
3ba5983012cf Uploaded mzeidler parents: diff changeset	1042 if self.temp_path:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1043 temp_path = tempfile.mkdtemp(dir=self.temp_path)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1044 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1045 temp_path = tempfile.mkdtemp()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1046
3ba5983012cf Uploaded mzeidler parents: diff changeset	1047 first_ends = []
3ba5983012cf Uploaded mzeidler parents: diff changeset	1048 second_ends = []
3ba5983012cf Uploaded mzeidler parents: diff changeset	1049 single_ends = []
3ba5983012cf Uploaded mzeidler parents: diff changeset	1050
3ba5983012cf Uploaded mzeidler parents: diff changeset	1051 if len(self.reads) == 2:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1052 first, second = self.reads
3ba5983012cf Uploaded mzeidler parents: diff changeset	1053 first_ends.append(first)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1054 second_ends.append(second)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1055
3ba5983012cf Uploaded mzeidler parents: diff changeset	1056 elif len(self.reads) == 1:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1057 single_ends.append(self.reads[0])
3ba5983012cf Uploaded mzeidler parents: diff changeset	1058
3ba5983012cf Uploaded mzeidler parents: diff changeset	1059 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1060 sys.stdout.write('Invalid number of fastq files; provide either one (single end) or two (paired end)')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1061 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1062
3ba5983012cf Uploaded mzeidler parents: diff changeset	1063 if single_ends and not first_ends and not second_ends:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1064 reads = [','.join(single_ends)]
3ba5983012cf Uploaded mzeidler parents: diff changeset	1065
3ba5983012cf Uploaded mzeidler parents: diff changeset	1066 elif first_ends and second_ends:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1067 reads = [','.join(first_ends), ','.join(second_ends)]
3ba5983012cf Uploaded mzeidler parents: diff changeset	1068
3ba5983012cf Uploaded mzeidler parents: diff changeset	1069
3ba5983012cf Uploaded mzeidler parents: diff changeset	1070 star_cline = star + ['--runMode', 'alignReads',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1071 '--genomeDir', self.index_dir,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1072 '--runThreadN', str(self.threads),
3ba5983012cf Uploaded mzeidler parents: diff changeset	1073 '--readMatesLengthsIn', 'NotEqual',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1074 '--outFileNamePrefix', os.path.join(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1075 temp_path, 'out'),
3ba5983012cf Uploaded mzeidler parents: diff changeset	1076 '--outSAMmode', 'Full',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1077 '--outSAMstrandField', 'None',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1078 '--outSAMattributes', 'Standard',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1079 '--outSAMunmapped', 'Within',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1080 '--outStd', 'SAM',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1081 '--outFilterMultimapNmax', '1000',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1082 '--outSAMprimaryFlag', 'AllBestScore',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1083 '--outSAMorder', 'PairedKeepInputOrder']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1084
3ba5983012cf Uploaded mzeidler parents: diff changeset	1085 if self.unmapped1 or self.unmapped2:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1086 star_cline += ['--outReadsUnmapped', 'Fastx']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1087 else:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1088 star_cline += ['--outReadsUnmapped', 'None']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1089
3ba5983012cf Uploaded mzeidler parents: diff changeset	1090
3ba5983012cf Uploaded mzeidler parents: diff changeset	1091 if self.zipped:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1092 star_cline += ['--readFilesCommand', 'zcat']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1093
3ba5983012cf Uploaded mzeidler parents: diff changeset	1094 if self.sensitive:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1095 star_cline += ['--outFilterMultimapScoreRange', '10',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1096 '--outFilterMismatchNmax', '60',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1097 '--outFilterMismatchNoverLmax', '0.3',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1098 '--outFilterScoreMin', '0',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1099 '--outFilterScoreMinOverLread', '0.3',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1100 '--outFilterMatchNmin', '0',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1101 '--outFilterMatchNminOverLread', '0.66',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1102 '--seedSearchStartLmax', '12',
3ba5983012cf Uploaded mzeidler parents: diff changeset	1103 '--winAnchorMultimapNmax', '50']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1104
3ba5983012cf Uploaded mzeidler parents: diff changeset	1105 star_cline += ['--readFilesIn'] + reads
3ba5983012cf Uploaded mzeidler parents: diff changeset	1106
3ba5983012cf Uploaded mzeidler parents: diff changeset	1107 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1108 print ' '.join(star_cline)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1109
3ba5983012cf Uploaded mzeidler parents: diff changeset	1110 # Try if we can make the relevant files
3ba5983012cf Uploaded mzeidler parents: diff changeset	1111 touch_files = [self.unmapped1, self.unmapped2, self.taxonomy, self.qual, self.hits, self.sam, self.bam]
3ba5983012cf Uploaded mzeidler parents: diff changeset	1112 for file_path in touch_files:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1113 if file_path is None or file_path == '':
3ba5983012cf Uploaded mzeidler parents: diff changeset	1114 continue
3ba5983012cf Uploaded mzeidler parents: diff changeset	1115 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1116 with file(file_path, 'a'):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1117 os.utime(file_path, None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1118 except IOError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1119 sys.stderr.write('Could not write output file %s\n' % file_path)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1120 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1121
3ba5983012cf Uploaded mzeidler parents: diff changeset	1122 star_process = subprocess.Popen(' '.join(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1123 star_cline), shell=True, stdout=PIPE)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1124
3ba5983012cf Uploaded mzeidler parents: diff changeset	1125 parser = SAMParser()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1126
3ba5983012cf Uploaded mzeidler parents: diff changeset	1127 if self.taxonomy:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1128 taxonomy = SAMTaxonomy(self.taxonomy)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1129
3ba5983012cf Uploaded mzeidler parents: diff changeset	1130 if self.qual:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1131 quality = SAMQuality(self.qual)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1132
3ba5983012cf Uploaded mzeidler parents: diff changeset	1133 if self.hits:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1134 hits = SAMHits(self.hits, self.sample_id, self.hit_filter,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1135 self.min_mapping_score,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1136 self.min_alignment_score,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1137 self.max_mismatches,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1138 self.max_relative_mismatches,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1139 self.min_continiously_matching,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1140 self.filter_complexity)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1141
3ba5983012cf Uploaded mzeidler parents: diff changeset	1142 if self.sam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1143 sam_file = open(self.sam, 'w')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1144
3ba5983012cf Uploaded mzeidler parents: diff changeset	1145 if self.bam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1146 with open(self.bam, 'wb', buffering=100 * 1024 * 1024) as bam_file:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1147 samtools_cline = samtools + [
3ba5983012cf Uploaded mzeidler parents: diff changeset	1148 'view', '-b', '-1', '-S', '-@', '4', '/dev/stdin']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1149 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1150 print ' '.join(samtools_cline)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1151 samtools_process = subprocess.Popen(' '.join(samtools_cline), shell=True, stdout=bam_file, stdin=PIPE)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1152
3ba5983012cf Uploaded mzeidler parents: diff changeset	1153
3ba5983012cf Uploaded mzeidler parents: diff changeset	1154 do_sam = self.sam
3ba5983012cf Uploaded mzeidler parents: diff changeset	1155 do_bam = self.bam
3ba5983012cf Uploaded mzeidler parents: diff changeset	1156 do_taxonomy = self.taxonomy
3ba5983012cf Uploaded mzeidler parents: diff changeset	1157 do_qual = self.qual
3ba5983012cf Uploaded mzeidler parents: diff changeset	1158 do_hits = self.hits
3ba5983012cf Uploaded mzeidler parents: diff changeset	1159 do_parse = do_taxonomy or do_qual or do_hits
3ba5983012cf Uploaded mzeidler parents: diff changeset	1160
3ba5983012cf Uploaded mzeidler parents: diff changeset	1161 for i, line in enumerate(iter(star_process.stdout.readline, '')):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1162
3ba5983012cf Uploaded mzeidler parents: diff changeset	1163 if do_sam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1164 sam_file.write(line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1165
3ba5983012cf Uploaded mzeidler parents: diff changeset	1166 if do_bam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1167 samtools_process.stdin.write(line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1168
3ba5983012cf Uploaded mzeidler parents: diff changeset	1169 if line[0] == '@':
3ba5983012cf Uploaded mzeidler parents: diff changeset	1170 continue
3ba5983012cf Uploaded mzeidler parents: diff changeset	1171
3ba5983012cf Uploaded mzeidler parents: diff changeset	1172 if do_parse:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1173 parsed_line = parser.parse(line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1174
3ba5983012cf Uploaded mzeidler parents: diff changeset	1175 if do_taxonomy:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1176 taxonomy.count(parsed_line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1177 if i > 0 and (i % 50000) == 0:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1178 print ''.join(taxonomy.get_summary(10))
3ba5983012cf Uploaded mzeidler parents: diff changeset	1179
3ba5983012cf Uploaded mzeidler parents: diff changeset	1180 if do_qual:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1181 quality.count(parsed_line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1182
3ba5983012cf Uploaded mzeidler parents: diff changeset	1183 if do_hits:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1184 hits.count(parsed_line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1185
3ba5983012cf Uploaded mzeidler parents: diff changeset	1186 if do_bam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1187 samtools_process.stdin.close()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1188
3ba5983012cf Uploaded mzeidler parents: diff changeset	1189 if do_sam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1190 sam_file.close()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1191
3ba5983012cf Uploaded mzeidler parents: diff changeset	1192 if do_hits:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1193 hits.write()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1194
3ba5983012cf Uploaded mzeidler parents: diff changeset	1195 if do_taxonomy:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1196 print ''.join(taxonomy.get_summary(10))
3ba5983012cf Uploaded mzeidler parents: diff changeset	1197 taxonomy.write()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1198
3ba5983012cf Uploaded mzeidler parents: diff changeset	1199 if do_qual:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1200 quality.write()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1201
3ba5983012cf Uploaded mzeidler parents: diff changeset	1202 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1203 if self.unmapped1:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1204 shutil.move(os.path.join(temp_path, 'out' + 'Unmapped.out.mate1'),\
3ba5983012cf Uploaded mzeidler parents: diff changeset	1205 self.unmapped1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1206 except IOError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1207 pass
3ba5983012cf Uploaded mzeidler parents: diff changeset	1208
3ba5983012cf Uploaded mzeidler parents: diff changeset	1209 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1210 if self.unmapped2:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1211 shutil.move(os.path.join(temp_path, 'out' + 'Unmapped.out.mate2'),\
3ba5983012cf Uploaded mzeidler parents: diff changeset	1212 self.unmapped2)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1213 except IOError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1214 pass
3ba5983012cf Uploaded mzeidler parents: diff changeset	1215
3ba5983012cf Uploaded mzeidler parents: diff changeset	1216 try:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1217 if self.chimeric_mappings:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1218 shutil.move(os.path.join(temp_path, 'out' + 'Chimeric.out.sam'),\
3ba5983012cf Uploaded mzeidler parents: diff changeset	1219 self.chimeric_mappings)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1220 except IOError:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1221 pass
3ba5983012cf Uploaded mzeidler parents: diff changeset	1222
3ba5983012cf Uploaded mzeidler parents: diff changeset	1223 shutil.rmtree(temp_path)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1224
3ba5983012cf Uploaded mzeidler parents: diff changeset	1225 @CLI.subcommand("dnamap")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1226 class DNAmap(cli.Application):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1227 """ Map input reads against a BWA index """
3ba5983012cf Uploaded mzeidler parents: diff changeset	1228
3ba5983012cf Uploaded mzeidler parents: diff changeset	1229 index_dir = cli.SwitchAttr(['-i', '--index_dir'], str, mandatory=True,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1230 help="Sets the index output directory")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1231
3ba5983012cf Uploaded mzeidler parents: diff changeset	1232 threads = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1233 ['-t', '--threads'], cli.Range(1, 512), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1234 help="Sets the number of threads to use",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1235 default=1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1236
3ba5983012cf Uploaded mzeidler parents: diff changeset	1237 taxonomy = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1238 ['-x', '--taxonomy'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1239 help="Output path for the taxonomy file; setting this option will also enable regular taxonomy output to stdout during mapping",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1240 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1241
3ba5983012cf Uploaded mzeidler parents: diff changeset	1242 samtools_path = cli.SwitchAttr(['--samtools_path'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1243 help="Path to samtools executable",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1244 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1245
3ba5983012cf Uploaded mzeidler parents: diff changeset	1246 temp_path = cli.SwitchAttr(['--temporary_path'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1247 help="Path to temporary directory in which to generate temp files. All temp files with be automatically deleted after execution is complete.",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1248 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1249
3ba5983012cf Uploaded mzeidler parents: diff changeset	1250 min_mapping_score = cli.SwitchAttr(['--min_mapping_score'], cli.Range(1, 255), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1251 help="Mimimum mapping score for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1252 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1253
3ba5983012cf Uploaded mzeidler parents: diff changeset	1254 min_alignment_score = cli.SwitchAttr(['--min_alignment_score'], cli.Range(1, 255), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1255 help="Mimimum alignment score for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1256 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1257
3ba5983012cf Uploaded mzeidler parents: diff changeset	1258 max_mismatches = cli.SwitchAttr(['--max_mismatches'], cli.Range(0, 10000000), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1259 help="Maximum number of mismatches for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1260 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1261
3ba5983012cf Uploaded mzeidler parents: diff changeset	1262 max_relative_mismatches = cli.SwitchAttr(['--max_relative_mismatches'], float, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1263 help="Maximum number of mismatches relative to read length for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1264 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1265
3ba5983012cf Uploaded mzeidler parents: diff changeset	1266 min_continiously_matching = cli.SwitchAttr(['--min_continiously_matching'], cli.Range(0, 10000000), mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1267 help="Minimum number of continious matches for saved hits (only applied to -v/--virana_hits)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1268 default=None)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1269
3ba5983012cf Uploaded mzeidler parents: diff changeset	1270 filter_complexity = cli.Flag(['--filter_complexity'],
3ba5983012cf Uploaded mzeidler parents: diff changeset	1271 help="Discard low-complexity reads (only applied to -v/--virana_hits). Adds some extra processing load to the mapping and may discard important information. Applies to all output files, including quality files (!)",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1272 default=False)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1273
3ba5983012cf Uploaded mzeidler parents: diff changeset	1274 sample_id = cli.SwitchAttr(['--sample_id'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1275 help="Alphanumeric string ([0-9a-zA-Z_-]*) used to designate sample information within the hit file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1276 default='no_sample_id')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1277
3ba5983012cf Uploaded mzeidler parents: diff changeset	1278 bam = cli.SwitchAttr(['-b', '--bam'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1279 help="Path to unsorted, unindexed output BAM file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1280 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1281
3ba5983012cf Uploaded mzeidler parents: diff changeset	1282 sam = cli.SwitchAttr(['-s', '--sam'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1283 help="Path to output SAM file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1284 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1285
3ba5983012cf Uploaded mzeidler parents: diff changeset	1286 qual = cli.SwitchAttr(['-q', '--qual'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1287 help="Path to output quality file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1288 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1289
3ba5983012cf Uploaded mzeidler parents: diff changeset	1290 hits = cli.SwitchAttr(['-v', '--virana_hits'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1291 help="Path to bzip2-compressed tab-delimited output virana hit file",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1292 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1293
3ba5983012cf Uploaded mzeidler parents: diff changeset	1294 hit_filter = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1295 ['-f', '--virana_hit_filter'], str, list=True, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1296 help="Only generate hit groups that include at last one read mapping to a reference of this reference group.",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1297 default=[])
3ba5983012cf Uploaded mzeidler parents: diff changeset	1298
3ba5983012cf Uploaded mzeidler parents: diff changeset	1299 debug = cli.Flag(["-d", "--debug"], help="Enable debug information")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1300
3ba5983012cf Uploaded mzeidler parents: diff changeset	1301 zipped = cli.Flag(["-z", "--zipped"], help="Input reads are zipped")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1302
3ba5983012cf Uploaded mzeidler parents: diff changeset	1303 sensitive = cli.Flag(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1304 ["--sensitive"], help="If given, mapping will process slower and more sensitive")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1305
3ba5983012cf Uploaded mzeidler parents: diff changeset	1306
3ba5983012cf Uploaded mzeidler parents: diff changeset	1307 bwa_path = cli.SwitchAttr(['--bwa_path'], str, mandatory=False,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1308 help="Path to BWA executable",
3ba5983012cf Uploaded mzeidler parents: diff changeset	1309 default='')
3ba5983012cf Uploaded mzeidler parents: diff changeset	1310
3ba5983012cf Uploaded mzeidler parents: diff changeset	1311 debug = cli.Flag(["-d", "--debug"], help="Enable debug information")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1312
3ba5983012cf Uploaded mzeidler parents: diff changeset	1313 if debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1314 logging.getLogger().setLevel(logging.DEBUG)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1315
3ba5983012cf Uploaded mzeidler parents: diff changeset	1316 reads = cli.SwitchAttr(
3ba5983012cf Uploaded mzeidler parents: diff changeset	1317 ['-r', '--reads'], str, list=True, mandatory=True,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1318 help="Sets the input reads. Add this parameter twice for paired end reads.")
3ba5983012cf Uploaded mzeidler parents: diff changeset	1319
3ba5983012cf Uploaded mzeidler parents: diff changeset	1320 def main(self):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1321
3ba5983012cf Uploaded mzeidler parents: diff changeset	1322 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1323 logging.getLogger().setLevel(logging.DEBUG)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1324
3ba5983012cf Uploaded mzeidler parents: diff changeset	1325 # Obtain star executable
3ba5983012cf Uploaded mzeidler parents: diff changeset	1326 bwa = [self.bwa_path and self.bwa_path or 'bwa']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1327 samtools = [self.samtools_path and self.samtools_path or 'samtools']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1328
3ba5983012cf Uploaded mzeidler parents: diff changeset	1329 # Check if genome directory is existing
3ba5983012cf Uploaded mzeidler parents: diff changeset	1330 if not os.path.exists(self.index_dir):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1331 sys.stdout.write('Index directory %s not existing, exiting'\
3ba5983012cf Uploaded mzeidler parents: diff changeset	1332 % self.genome_dir)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1333 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1334
3ba5983012cf Uploaded mzeidler parents: diff changeset	1335 if len(self.reads) not in (1, 2):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1336 message = 'Invalid number of FASTQ files; supply either one (single end) or two (paired end)\n'
3ba5983012cf Uploaded mzeidler parents: diff changeset	1337 sys.stderr.write(message)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1338 sys.exit(1)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1339
3ba5983012cf Uploaded mzeidler parents: diff changeset	1340 bwa_cline = bwa + ['mem', '-t', str(self.threads), '-M', os.path.join(self.index_dir, 'index')]
3ba5983012cf Uploaded mzeidler parents: diff changeset	1341
3ba5983012cf Uploaded mzeidler parents: diff changeset	1342 bwa_cline += self.reads
3ba5983012cf Uploaded mzeidler parents: diff changeset	1343
3ba5983012cf Uploaded mzeidler parents: diff changeset	1344 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1345 print ' '.join(bwa_cline)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1346
3ba5983012cf Uploaded mzeidler parents: diff changeset	1347 bwa_process = subprocess.Popen(' '.join(bwa_cline), shell=True, stdout=PIPE)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1348
3ba5983012cf Uploaded mzeidler parents: diff changeset	1349 parser = SAMParser()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1350
3ba5983012cf Uploaded mzeidler parents: diff changeset	1351 if self.taxonomy:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1352 taxonomy = SAMTaxonomy(self.taxonomy)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1353
3ba5983012cf Uploaded mzeidler parents: diff changeset	1354 if self.qual:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1355 quality = SAMQuality(self.qual)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1356
3ba5983012cf Uploaded mzeidler parents: diff changeset	1357 if self.hits:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1358 hits = SAMHits(self.hits, self.sample_id, self.hit_filter,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1359 self.min_mapping_score,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1360 self.min_alignment_score,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1361 self.max_mismatches,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1362 self.max_relative_mismatches,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1363 self.min_continiously_matching,
3ba5983012cf Uploaded mzeidler parents: diff changeset	1364 self.filter_complexity)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1365
3ba5983012cf Uploaded mzeidler parents: diff changeset	1366 if self.sam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1367 sam_file = open(self.sam, 'w', buffering=100 * 1024 * 1024)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1368
3ba5983012cf Uploaded mzeidler parents: diff changeset	1369 if self.bam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1370 with open(self.bam, 'wb', buffering=100 * 1024 * 1024) as bam_file:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1371 samtools_cline = samtools + [
3ba5983012cf Uploaded mzeidler parents: diff changeset	1372 'view', '-b', '-1', '-S', '-@', '4', '/dev/stdin']
3ba5983012cf Uploaded mzeidler parents: diff changeset	1373 if self.debug:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1374 print ' '.join(samtools_cline)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1375 samtools_process = subprocess.Popen(' '.join(samtools_cline), shell=True, stdout=bam_file, stdin=PIPE)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1376
3ba5983012cf Uploaded mzeidler parents: diff changeset	1377 do_sam = self.sam
3ba5983012cf Uploaded mzeidler parents: diff changeset	1378 do_bam = self.bam
3ba5983012cf Uploaded mzeidler parents: diff changeset	1379 do_taxonomy = self.taxonomy
3ba5983012cf Uploaded mzeidler parents: diff changeset	1380 do_qual = self.qual
3ba5983012cf Uploaded mzeidler parents: diff changeset	1381 do_hits = self.hits
3ba5983012cf Uploaded mzeidler parents: diff changeset	1382 do_parse = do_taxonomy or do_qual or do_hits
3ba5983012cf Uploaded mzeidler parents: diff changeset	1383
3ba5983012cf Uploaded mzeidler parents: diff changeset	1384 for i, line in enumerate(iter(bwa_process.stdout.readline, '')):
3ba5983012cf Uploaded mzeidler parents: diff changeset	1385
3ba5983012cf Uploaded mzeidler parents: diff changeset	1386 if do_sam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1387 sam_file.write(line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1388
3ba5983012cf Uploaded mzeidler parents: diff changeset	1389 if do_bam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1390 samtools_process.stdin.write(line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1391
3ba5983012cf Uploaded mzeidler parents: diff changeset	1392 if do_parse:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1393 parsed_line = parser.parse(line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1394
3ba5983012cf Uploaded mzeidler parents: diff changeset	1395 if do_taxonomy:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1396 taxonomy.count(parsed_line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1397
3ba5983012cf Uploaded mzeidler parents: diff changeset	1398 if i > 0 and (i % 10000) == 0:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1399 print ''.join(taxonomy.get_summary(10))
3ba5983012cf Uploaded mzeidler parents: diff changeset	1400
3ba5983012cf Uploaded mzeidler parents: diff changeset	1401 if do_qual:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1402 quality.count(parsed_line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1403
3ba5983012cf Uploaded mzeidler parents: diff changeset	1404 if do_hits:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1405 hits.count(parsed_line)
3ba5983012cf Uploaded mzeidler parents: diff changeset	1406
3ba5983012cf Uploaded mzeidler parents: diff changeset	1407 if do_bam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1408 samtools_process.stdin.close()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1409
3ba5983012cf Uploaded mzeidler parents: diff changeset	1410 if do_sam:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1411 sam_file.close()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1412
3ba5983012cf Uploaded mzeidler parents: diff changeset	1413 if do_hits:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1414 hits.write()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1415
3ba5983012cf Uploaded mzeidler parents: diff changeset	1416 if do_taxonomy:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1417 print ''.join(taxonomy.get_summary(10))
3ba5983012cf Uploaded mzeidler parents: diff changeset	1418 taxonomy.write()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1419
3ba5983012cf Uploaded mzeidler parents: diff changeset	1420 if do_qual:
3ba5983012cf Uploaded mzeidler parents: diff changeset	1421 quality.write()
3ba5983012cf Uploaded mzeidler parents: diff changeset	1422
3ba5983012cf Uploaded mzeidler parents: diff changeset	1423
3ba5983012cf Uploaded mzeidler parents: diff changeset	1424 if __name__ == "__main__":
3ba5983012cf Uploaded mzeidler parents: diff changeset	1425 CLI.run()

Mercurial > repos > mzeidler > virana2

annotate vmap.py @ 2:24a2978f8ffc draft