ribo_tools: get_codon_frequency.py annotate

annotate get_codon_frequency.py @ 19:385fc64fa988 draft default tip

Uploaded

author	rlegendre
date	Fri, 12 Jun 2015 11:32:59 -0400
parents	c87c40e642af
children

rev	line source
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	1 #!/usr/bin/env python2.7
b8c070add3b7 Uploaded rlegendre parents: diff changeset	2 # -- coding: utf-8 --
b8c070add3b7 Uploaded rlegendre parents: diff changeset	3
b8c070add3b7 Uploaded rlegendre parents: diff changeset	4 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	5 Created on sep. 2013
b8c070add3b7 Uploaded rlegendre parents: diff changeset	6 @author: rachel legendre
b8c070add3b7 Uploaded rlegendre parents: diff changeset	7 @copyright: rachel.legendre@igmors.u-psud.fr
b8c070add3b7 Uploaded rlegendre parents: diff changeset	8 @license: GPL v3
b8c070add3b7 Uploaded rlegendre parents: diff changeset	9 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	10
b8c070add3b7 Uploaded rlegendre parents: diff changeset	11 from __future__ import division
b8c070add3b7 Uploaded rlegendre parents: diff changeset	12 import os, sys, optparse, tempfile, subprocess, re, shutil, commands, urllib, time
b8c070add3b7 Uploaded rlegendre parents: diff changeset	13 import itertools
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	14 from math import log10
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	15 from decimal import Decimal
b8c070add3b7 Uploaded rlegendre parents: diff changeset	16 from Bio import SeqIO
b8c070add3b7 Uploaded rlegendre parents: diff changeset	17 from Bio.Seq import Seq
b8c070add3b7 Uploaded rlegendre parents: diff changeset	18 from numpy import arange, std, array, linspace, average
b8c070add3b7 Uploaded rlegendre parents: diff changeset	19 #from matplotlib import pyplot as pl
b8c070add3b7 Uploaded rlegendre parents: diff changeset	20 import matplotlib
b8c070add3b7 Uploaded rlegendre parents: diff changeset	21 matplotlib.use('Agg')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	22 import matplotlib.pyplot as pl
b8c070add3b7 Uploaded rlegendre parents: diff changeset	23 from matplotlib import font_manager
b8c070add3b7 Uploaded rlegendre parents: diff changeset	24 from matplotlib import colors
b8c070add3b7 Uploaded rlegendre parents: diff changeset	25 import csv
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	26 from scipy import stats, errstate
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	27 from collections import OrderedDict
10 707807fee542 rlegendre parents: 0 diff changeset	28 import ribo_functions
707807fee542 rlegendre parents: 0 diff changeset	29 import HTSeq
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	30 # #libraries for debugg
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	31 #import pdb
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	32 import cPickle
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	33
b8c070add3b7 Uploaded rlegendre parents: diff changeset	34 def stop_err(msg):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	35 sys.stderr.write("%s\n" % msg)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	36 sys.stderr.write("Programme aborted at %s\n" % time.asctime(time.localtime(time.time())))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	37 sys.exit()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	38
b8c070add3b7 Uploaded rlegendre parents: diff changeset	39
b8c070add3b7 Uploaded rlegendre parents: diff changeset	40 def init_codon_dict():
b8c070add3b7 Uploaded rlegendre parents: diff changeset	41
b8c070add3b7 Uploaded rlegendre parents: diff changeset	42 Codon_dict = OrderedDict([('AAA', 0), ('AAC', 0), ('AAG', 0), ('AAT', 0), ('ACA', 0), ('ACC', 0), ('ACG', 0), ('ACT', 0), ('AGA', 0), ('AGC', 0), ('AGG', 0), ('AGT', 0), ('ATA', 0), ('ATC', 0), ('ATG', 0), ('ATT', 0), ('CAA', 0), ('CAC', 0), ('CAG', 0), ('CAT', 0), ('CCA', 0), ('CCC', 0), ('CCG', 0), ('CCT', 0), ('CGA', 0), ('CGC', 0), ('CGG', 0), ('CGT', 0), ('CTA', 0), ('CTC', 0), ('CTG', 0), ('CTT', 0), ('GAA', 0), ('GAC', 0), ('GAG', 0), ('GAT', 0), ('GCA', 0), ('GCC', 0), ('GCG', 0), ('GCT', 0), ('GGA', 0), ('GGC', 0), ('GGG', 0), ('GGT', 0), ('GTA', 0), ('GTC', 0), ('GTG', 0), ('GTT', 0), ('TAA', 0), ('TAC', 0), ('TAG', 0), ('TAT', 0), ('TCA', 0), ('TCC', 0), ('TCG', 0), ('TCT', 0), ('TGA', 0), ('TGC', 0), ('TGG', 0), ('TGT', 0), ('TTA', 0), ('TTC', 0), ('TTG', 0), ('TTT', 0)])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	43 return Codon_dict
b8c070add3b7 Uploaded rlegendre parents: diff changeset	44
b8c070add3b7 Uploaded rlegendre parents: diff changeset	45
b8c070add3b7 Uploaded rlegendre parents: diff changeset	46
b8c070add3b7 Uploaded rlegendre parents: diff changeset	47 def get_codon_usage(bamfile, GFF, site, kmer, a_pos):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	48 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	49 Read GFF dict and get gene codon usage.
b8c070add3b7 Uploaded rlegendre parents: diff changeset	50 Return dict of codons usage
b8c070add3b7 Uploaded rlegendre parents: diff changeset	51 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	52 try:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	53 codon = init_codon_dict()
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	54 multi_tag = "XS:i:" ## bowtie Tag
7c944fd9907e release 2 rlegendre parents: 10 diff changeset	55 tag = "IH:i:1" ## RUM tag
7c944fd9907e release 2 rlegendre parents: 10 diff changeset	56
10 707807fee542 rlegendre parents: 0 diff changeset	57 for feature in GFF :
707807fee542 rlegendre parents: 0 diff changeset	58 if feature.type == 'gene' :
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	59 codon_dict = init_codon_dict()
10 707807fee542 rlegendre parents: 0 diff changeset	60 chrom = feature.iv.chrom
707807fee542 rlegendre parents: 0 diff changeset	61 start = feature.iv.start
707807fee542 rlegendre parents: 0 diff changeset	62 stop = feature.iv.end
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	63 if start+50 < stop-50 :
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	64 region = chrom + ':' + str(start+50) + '-' + str(stop-50)
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	65 # #get all reads in this gene
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	66 reads = subprocess.check_output(["samtools", "view", bamfile, region])
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	67 head = subprocess.check_output(["samtools", "view", "-H", bamfile])
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	68 read_tab = reads.split('\n')
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	69 for read in read_tab:
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	70 # # search mapper for eliminate multiple alignements
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	71 if 'bowtie' in head:
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	72 multi_tag = "XS:i:"
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	73 elif 'bwa' in head:
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	74 multi_tag = "XT:A:R"
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	75 elif 'TopHat' in head:
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	76 tag = "NH:i:1"
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	77 else :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	78 stop_err("No PG tag find in "+samfile+". Please use bowtie, bwa or Tophat for mapping")
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	79
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	80 if len(read) == 0:
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	81 continue
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	82 len_read = len(read.split('\t')[9])
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	83 # if it's read of good length
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	84 if len_read == kmer and (tag in read or multi_tag not in read):
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	85 feat = read.split('\t')
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	86 seq = feat[9]
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	87 # if it's a reverse read
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	88 if feat[1] == '16' :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	89 if site == "A" :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	90 # #get A-site
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	91 cod = str(Seq(seq[a_pos-5:a_pos-2]).reverse_complement())
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	92 elif site == "P" :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	93 # #get P-site
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	94 cod = str(Seq(seq[a_pos-2:a_pos+1]).reverse_complement())
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	95 else :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	96 # #get site-E
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	97 cod = str(Seq(seq[a_pos+1:a_pos+4]).reverse_complement())
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	98 # # test if it's a true codon not a CNG codon for example
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	99 if codon_dict.has_key(cod) :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	100 codon_dict[cod] += 1
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	101 # if it's a forward read
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	102 elif feat[1] == '0' :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	103 if site == "A" :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	104 # #get A-site
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	105 cod = seq[a_pos:a_pos+3]
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	106 elif site == "P" :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	107 # #get P-site
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	108 cod = seq[a_pos-3:a_pos]
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	109 else :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	110 # #get site-E
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	111 cod = seq[a_pos-6:a_pos-3]
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	112 if codon_dict.has_key(cod) :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	113 codon_dict[cod] += 1
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	114 del(read)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	115 # # add in global dict
b8c070add3b7 Uploaded rlegendre parents: diff changeset	116 for cod, count in codon_dict.iteritems() :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	117 codon[cod] += count
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	118 if sum(codon.values()) == 0 :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	119 stop_err('There are no reads aligning on annotated genes in your GFF file')
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	120 else :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	121 return codon
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	122
b8c070add3b7 Uploaded rlegendre parents: diff changeset	123 except Exception, e:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	124 stop_err('Error during codon usage calcul: ' + str(e))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	125
b8c070add3b7 Uploaded rlegendre parents: diff changeset	126
10 707807fee542 rlegendre parents: 0 diff changeset	127
707807fee542 rlegendre parents: 0 diff changeset	128
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	129 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	130 http://pyinsci.blogspot.fr/2009/09/violin-plot-with-matplotlib.html
b8c070add3b7 Uploaded rlegendre parents: diff changeset	131 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	132 def violin_plot(ax, data, pos, bp=False):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	133 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	134 create violin plots on an axis
b8c070add3b7 Uploaded rlegendre parents: diff changeset	135 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	136 dist = max(pos) - min(pos)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	137 w = min(0.15 * max(dist, 1.0), 0.5)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	138 for d, p in zip(data, pos):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	139 k = stats.gaussian_kde(d) # calculates the kernel density
b8c070add3b7 Uploaded rlegendre parents: diff changeset	140 m = k.dataset.min() # lower bound of violin
b8c070add3b7 Uploaded rlegendre parents: diff changeset	141 M = k.dataset.max() # upper bound of violin
b8c070add3b7 Uploaded rlegendre parents: diff changeset	142 x = arange(m, M, (M - m) / 100.) # support for violin
b8c070add3b7 Uploaded rlegendre parents: diff changeset	143 v = k.evaluate(x) # violin profile (density curve)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	144 v = v / v.max() * w # scaling the violin to the available space
b8c070add3b7 Uploaded rlegendre parents: diff changeset	145 ax.fill_betweenx(x, p, v + p, facecolor=color1, alpha=0.3)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	146 ax.fill_betweenx(x, p, -v + p, facecolor=color2, alpha=0.3)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	147 if bp:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	148 ax.boxplot(data, notch=1, positions=pos, vert=1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	149
b8c070add3b7 Uploaded rlegendre parents: diff changeset	150
b8c070add3b7 Uploaded rlegendre parents: diff changeset	151
b8c070add3b7 Uploaded rlegendre parents: diff changeset	152 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	153 http://log.ooz.ie/2013/02/matplotlib-comparative-histogram-recipe.html
b8c070add3b7 Uploaded rlegendre parents: diff changeset	154 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	155 def comphist(x1, x2, orientation='vertical', **kwargs):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	156 """Draw a comparative histogram."""
b8c070add3b7 Uploaded rlegendre parents: diff changeset	157 # Split keyword args:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	158 kwargs1 = {}
b8c070add3b7 Uploaded rlegendre parents: diff changeset	159 kwargs2 = {}
b8c070add3b7 Uploaded rlegendre parents: diff changeset	160 kwcommon = {}
b8c070add3b7 Uploaded rlegendre parents: diff changeset	161 for arg in kwargs:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	162 tgt_arg = arg[:-1]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	163 if arg.endswith('1'):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	164 arg_dict = kwargs1
b8c070add3b7 Uploaded rlegendre parents: diff changeset	165 elif arg.endswith('2'):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	166 arg_dict = kwargs2
b8c070add3b7 Uploaded rlegendre parents: diff changeset	167 else:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	168 arg_dict = kwcommon
b8c070add3b7 Uploaded rlegendre parents: diff changeset	169 tgt_arg = arg
b8c070add3b7 Uploaded rlegendre parents: diff changeset	170 arg_dict[tgt_arg] = kwargs[arg]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	171 kwargs1.update(kwcommon)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	172 kwargs2.update(kwcommon)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	173
b8c070add3b7 Uploaded rlegendre parents: diff changeset	174 fig = pl.figure()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	175
b8c070add3b7 Uploaded rlegendre parents: diff changeset	176 # Have both histograms share one axis.
b8c070add3b7 Uploaded rlegendre parents: diff changeset	177 if orientation == 'vertical':
b8c070add3b7 Uploaded rlegendre parents: diff changeset	178 ax1 = pl.subplot(211)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	179 ax2 = pl.subplot(212, sharex=ax1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	180 # Flip the ax2 histogram horizontally.
b8c070add3b7 Uploaded rlegendre parents: diff changeset	181 ax2.set_ylim(ax1.get_ylim()[::-1])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	182 pl.setp(ax1.get_xticklabels(), visible=False)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	183 legend_loc = (1, 4)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	184 else:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	185 ax1 = pl.subplot(122)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	186 ax2 = pl.subplot(121, sharey=ax1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	187 # Flip the ax2 histogram vertically.
b8c070add3b7 Uploaded rlegendre parents: diff changeset	188 ax2.set_xlim(ax2.get_xlim()[::-1])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	189 pl.setp(ax1.get_yticklabels(), visible=False)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	190 legend_loc = (1, 2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	191
b8c070add3b7 Uploaded rlegendre parents: diff changeset	192 ax1.hist(x1, orientation=orientation, **kwargs1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	193 ax2.hist(x2, orientation=orientation, **kwargs2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	194 ax2.set_ylim(ax1.get_ylim()[::-1])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	195 ax1.legend(loc=legend_loc[0])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	196 ax2.legend(loc=legend_loc[1])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	197 # Tighten up the layout.
b8c070add3b7 Uploaded rlegendre parents: diff changeset	198 pl.subplots_adjust(wspace=0.0, hspace=0.0)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	199 return fig
b8c070add3b7 Uploaded rlegendre parents: diff changeset	200
b8c070add3b7 Uploaded rlegendre parents: diff changeset	201
b8c070add3b7 Uploaded rlegendre parents: diff changeset	202 def compute_FC_plot(cond1_norm, cond2_norm, cod_name, codon_to_test, dirout):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	203
b8c070add3b7 Uploaded rlegendre parents: diff changeset	204 FC_tab = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	205 for z, y in zip(cond1_norm.itervalues(), cond2_norm.itervalues()):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	206 fc = z - y
b8c070add3b7 Uploaded rlegendre parents: diff changeset	207 FC_tab.append(fc)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	208 # #codon_to_test = ['TGA','TAG','TAA']
b8c070add3b7 Uploaded rlegendre parents: diff changeset	209
b8c070add3b7 Uploaded rlegendre parents: diff changeset	210 a = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	211 b = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	212 cod = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	213 for codon in cond1_norm.iterkeys():
b8c070add3b7 Uploaded rlegendre parents: diff changeset	214 if codon in codon_to_test :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	215 fc = cond1_norm[codon] - cond2_norm[codon]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	216 b.append(fc)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	217 cod.append(codon)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	218 else :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	219 fc = cond1_norm[codon] - cond2_norm[codon]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	220 a.append(fc)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	221
b8c070add3b7 Uploaded rlegendre parents: diff changeset	222
b8c070add3b7 Uploaded rlegendre parents: diff changeset	223 fig = pl.figure(num=1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	224 comphist(array(a), array(b), label1='All codon', label2=cod_name, color2='green', bins=30, rwidth=1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	225 # pl.show()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	226 pl.savefig(dirout + '/hist_codon_fc.png', format="png", dpi=340)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	227 pl.clf()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	228
b8c070add3b7 Uploaded rlegendre parents: diff changeset	229
b8c070add3b7 Uploaded rlegendre parents: diff changeset	230 # #violin plot
b8c070add3b7 Uploaded rlegendre parents: diff changeset	231 pos = range(2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	232 dat = array([array(a), array(b)])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	233 fig = pl.figure()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	234 pl.title("Distribution of codons FoldChange between two conditions")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	235 ax = fig.add_subplot(1, 1, 1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	236 lab = array(['All codons', cod_name])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	237 violin_plot(ax, dat, pos, bp=1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	238 for x, z in zip(dat, pos):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	239 ax.plot(z, average(x), color='r', marker='*', markeredgecolor='r')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	240 xtickNames = pl.setp(ax, xticklabels=lab)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	241 pl.savefig(dirout + '/violinplot_codon.png', format="png", dpi=340)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	242 pl.clf()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	243
b8c070add3b7 Uploaded rlegendre parents: diff changeset	244 # (Fval,pval) = stats.ttest_ind(a, b, axis=0, equal_var=True)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	245 (Fval, pval) = stats.mannwhitneyu(a, b)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	246 return pval
b8c070add3b7 Uploaded rlegendre parents: diff changeset	247
b8c070add3b7 Uploaded rlegendre parents: diff changeset	248
b8c070add3b7 Uploaded rlegendre parents: diff changeset	249 def get_aa_dict(cond1_norm, cond2_norm):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	250
b8c070add3b7 Uploaded rlegendre parents: diff changeset	251 # ## create amino acid dictionnary:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	252 AA = OrderedDict({})
b8c070add3b7 Uploaded rlegendre parents: diff changeset	253 AA['Phe'] = [cond1_norm['TTT'] + cond1_norm['TTC'], cond2_norm['TTT'] + cond2_norm['TTC']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	254 AA['Leu'] = [cond1_norm['TTA'] + cond1_norm['TTG'] + cond1_norm['CTT'] + cond1_norm['CTC'] + cond1_norm['CTA'] + cond1_norm['CTG'], cond2_norm['TTA'] + cond2_norm['TTG'] + cond2_norm['CTT'] + cond2_norm['CTC'] + cond2_norm['CTA'] + cond2_norm['CTG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	255 AA['Ile'] = [cond1_norm['ATT'] + cond1_norm['ATC'] + cond1_norm['ATA'], cond2_norm['ATT'] + cond2_norm['ATC'] + cond2_norm['ATA']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	256 AA['Met'] = [cond1_norm['ATG'], cond2_norm['ATG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	257 AA['Val'] = [cond1_norm['GTT'] + cond1_norm['GTC'] + cond1_norm['GTA'] + cond1_norm['GTG'] + cond1_norm['AGT'] + cond1_norm['AGC'], cond2_norm['GTT'] + cond2_norm['GTC'] + cond2_norm['GTA'] + cond2_norm['GTG'] + cond2_norm['AGT'] + cond2_norm['AGC']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	258 AA['Ser'] = [cond1_norm['TCT'] + cond1_norm['TCC'] + cond1_norm['TCA'] + cond1_norm['TCG'], cond2_norm['TCT'] + cond2_norm['TCC'] + cond2_norm['TCA'] + cond2_norm['TCG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	259 AA['Pro'] = [cond1_norm['CCT'] + cond1_norm['CCC'] + cond1_norm['CCA'] + cond1_norm['CCG'], cond2_norm['CCT'] + cond2_norm['CCC'] + cond2_norm['CCA'] + cond2_norm['CCG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	260 AA['Thr'] = [cond1_norm['ACT'] + cond1_norm['ACC'] + cond1_norm['ACA'] + cond1_norm['ACG'], cond2_norm['ACT'] + cond2_norm['ACC'] + cond2_norm['ACA'] + cond2_norm['ACG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	261 AA['Ala'] = [cond1_norm['GCT'] + cond1_norm['GCC'] + cond1_norm['GCA'] + cond1_norm['GCG'], cond2_norm['GCT'] + cond2_norm['GCC'] + cond2_norm['GCA'] + cond2_norm['GCG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	262 AA['Tyr'] = [cond1_norm['TAT'] + cond1_norm['TAC'], cond2_norm['TAT'] + cond2_norm['TAC']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	263 AA['Stop'] = [cond1_norm['TAA'] + cond1_norm['TAG'] + cond1_norm['TGA'], cond2_norm['TAA'] + cond2_norm['TAG'] + cond2_norm['TGA']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	264 AA['His'] = [cond1_norm['CAT'] + cond1_norm['CAC'], cond2_norm['CAT'] + cond2_norm['CAC']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	265 AA['Gln'] = [cond1_norm['CAA'] + cond1_norm['CAG'], cond2_norm['CAA'] + cond2_norm['CAG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	266 AA['Asn'] = [cond1_norm['AAT'] + cond1_norm['AAC'], cond2_norm['AAT'] + cond2_norm['AAC']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	267 AA['Lys'] = [cond1_norm['AAA'] + cond1_norm['AAG'], cond2_norm['AAA'] + cond2_norm['AAG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	268 AA['Asp'] = [cond1_norm['GAT'] + cond1_norm['GAC'], cond2_norm['GAT'] + cond2_norm['GAC']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	269 AA['Glu'] = [cond1_norm['GAA'] + cond1_norm['GAG'], cond2_norm['GAA'] + cond2_norm['GAG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	270 AA['Cys'] = [cond1_norm['TGT'] + cond1_norm['TGC'], cond2_norm['TGT'] + cond2_norm['TGC']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	271 AA['Trp'] = [cond1_norm['TGG'], cond2_norm['TGG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	272 AA['Arg'] = [cond1_norm['CGT'] + cond1_norm['CGC'] + cond1_norm['CGA'] + cond1_norm['CGG'] + cond1_norm['AGA'] + cond1_norm['AGG'], cond2_norm['CGT'] + cond2_norm['CGC'] + cond2_norm['CGA'] + cond2_norm['CGG'] + cond2_norm['AGA'] + cond2_norm['AGG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	273 AA['Gly'] = [cond1_norm['GGT'] + cond1_norm['GGC'] + cond1_norm['GGA'] + cond1_norm['GGG'], cond2_norm['GGT'] + cond2_norm['GGC'] + cond2_norm['GGA'] + cond2_norm['GGG']]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	274
b8c070add3b7 Uploaded rlegendre parents: diff changeset	275
b8c070add3b7 Uploaded rlegendre parents: diff changeset	276 return AA
b8c070add3b7 Uploaded rlegendre parents: diff changeset	277
b8c070add3b7 Uploaded rlegendre parents: diff changeset	278
b8c070add3b7 Uploaded rlegendre parents: diff changeset	279
b8c070add3b7 Uploaded rlegendre parents: diff changeset	280 def plot_codon_usage(result, dirout, c1, c2, outfile, color1, color2):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	281 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	282 Take list of dict of codon usage and use matplotlib for do graph
b8c070add3b7 Uploaded rlegendre parents: diff changeset	283 '''
b8c070add3b7 Uploaded rlegendre parents: diff changeset	284
b8c070add3b7 Uploaded rlegendre parents: diff changeset	285 # #if there are replicat
b8c070add3b7 Uploaded rlegendre parents: diff changeset	286 if len(result) == 4 :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	287 # store each dict in variables to make code more readable
b8c070add3b7 Uploaded rlegendre parents: diff changeset	288 cond1_1 = result[0].copy()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	289 cond1_2 = result[1].copy()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	290 cond2_1 = result[2].copy()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	291 cond2_2 = result[3].copy()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	292 # get codon order in one of list
b8c070add3b7 Uploaded rlegendre parents: diff changeset	293 codon_sorted = sorted(cond1_1.iterkeys(), reverse=False)
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	294 try:
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	295 # get max of each list
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	296 sum11 = sum(list(cond1_1.itervalues()))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	297 sum12 = sum(list(cond1_2.itervalues()))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	298 sum21 = sum(list(cond2_1.itervalues()))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	299 sum22 = sum(list(cond2_2.itervalues()))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	300 # for each codon, get values and sd in each condition
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	301 cond1_val = {}
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	302 cond1 = {}
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	303 cond2_val = {}
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	304 cond2 = {}
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	305 std_cond1 = []
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	306 std_cond2 = []
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	307 max_val = [] # # max value for graph
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	308 for i in codon_sorted:
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	309 # # cond1 = mean of replicats cond1 divided by max
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	310 cond1_val[i] = ((cond1_1[i] / sum11 + cond1_2[i] / sum12) / 2)
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	311 cond1[i] = ((cond1_1[i] + cond1_2[i]) / 2)
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	312 # # standard deviation = absolute value of difference between replicats of cond1
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	313 std_cond1.append(std(array([(cond1_1[i] * 100 / sum11), (cond1_2[i] * 100 / sum12)])))
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	314 # # cond2 = mean of replicats cond1divided by max
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	315 cond2_val[i] = ((cond2_1[i] / sum21 + cond2_2[i] / sum22) / 2)
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	316 cond2[i] = ((cond2_1[i] + cond2_2[i]) / 2)
16 fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	317 # # standard deviation = absolute value of difference between replicats of cond2
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	318 std_cond2.append(std(array([((cond2_1[i]) * 100 / sum21), ((cond2_2[i]) * 100 / sum22)])))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	319 # # max value for each codon
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	320 max_val.append(max((cond1_1[i] / sum11 + cond1_2[i] / sum12) / 2, (cond2_1[i] / sum21 + cond2_2[i] / sum22) / 2))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	321
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	322 # for graph design
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	323 cond1_norm = OrderedDict(sorted(cond1_val.items(), key=lambda t: t[0]))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	324 cond1_norm.update ((x, y * 100) for x, y in cond1_norm.items())
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	325 cond2_norm = OrderedDict(sorted(cond2_val.items(), key=lambda t: t[0]))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	326 cond2_norm.update ((x, y * 100) for x, y in cond2_norm.items())
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	327 max_val = [x * 100 for x in max_val]
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	328 except ZeroDivisionError:
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	329 stop_err("Not enough reads to compute the codon occupancy")
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	330
b8c070add3b7 Uploaded rlegendre parents: diff changeset	331 AA = get_aa_dict(cond1_norm, cond2_norm)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	332 max_valaa = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	333 cond1_aa = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	334 cond2_aa = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	335 aa_name = list(AA.iterkeys())
b8c070add3b7 Uploaded rlegendre parents: diff changeset	336 for z in AA.itervalues():
b8c070add3b7 Uploaded rlegendre parents: diff changeset	337 cond1_aa.append(z[0])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	338 cond2_aa.append(z[1])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	339 max_valaa.append(max(z))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	340 # # plot amino acid profile :
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	341 fig = pl.figure(figsize=(15,10), num=1)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	342 width = .50
b8c070add3b7 Uploaded rlegendre parents: diff changeset	343 ax = fig.add_subplot(111)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	344 ax.xaxis.set_ticks([])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	345 ind = arange(21)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	346 pl.xlim(0, 21)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	347 ax.bar(ind, cond1_aa, width, facecolor=color1, label=c1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	348 ax.bar(ind + width, cond2_aa, width, facecolor=color2, label=c2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	349 for x, y, z in zip(ind, max_valaa, aa_name):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	350 ax.text(x + width, y + 0.2, '%s' % z, ha='center', va='bottom', fontsize=14)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	351 ax.set_ylabel('Ribosome Occupancy (percent of normalized reads)')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	352 ax.set_xlabel('Amino Acid')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	353 handles, labels = ax.get_legend_handles_labels()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	354 ax.legend(handles, labels)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	355 pl.savefig(dirout + '/hist_amino_acid.png', format="png", dpi=340)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	356 pl.clf()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	357
b8c070add3b7 Uploaded rlegendre parents: diff changeset	358
b8c070add3b7 Uploaded rlegendre parents: diff changeset	359 # # compute theorical count in COND2
b8c070add3b7 Uploaded rlegendre parents: diff changeset	360 sum2 = (sum21 + sum22) / 2
b8c070add3b7 Uploaded rlegendre parents: diff changeset	361 cond2_count = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	362 for z in cond1_norm.itervalues() :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	363 count = int(z * sum2 / 100)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	364 cond2_count.append(count)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	365
b8c070add3b7 Uploaded rlegendre parents: diff changeset	366 expected = array(cond2_count)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	367 observed = array(list(cond2.itervalues()))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	368
b8c070add3b7 Uploaded rlegendre parents: diff changeset	369 # write result
b8c070add3b7 Uploaded rlegendre parents: diff changeset	370 with open(outfile, 'w') as out :
19 385fc64fa988 Uploaded rlegendre parents: 17 diff changeset	371 out.write('Codon,Raw_' + c1 + ',Raw_' + c2 + ',Norm_' + c1 + ',Norm_' + c2 + ',FC(Mut/WT)\n')
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	372 for i in codon_sorted:
16 fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	373 ## if global foldchange is equal to zero
fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	374 if cond1_norm[i] == 0 and cond2_norm[i] == 0:
19 385fc64fa988 Uploaded rlegendre parents: 17 diff changeset	375 out.write(i + ',' + str(cond1[i]) + ',' + str(cond2[i]) + ',' + str(cond1_norm[i]) + ',' + str(cond2_norm[i]) + ',1.0\n')
16 fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	376 elif cond1_norm[i] == 0 :
19 385fc64fa988 Uploaded rlegendre parents: 17 diff changeset	377 out.write(i + ',' + str(cond1[i]) + ',' + str(cond2[i]) + ',' + str(cond1_norm[i]) + ',' + str(cond2_norm[i]) + ',0.0\n')
16 fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	378 else:
19 385fc64fa988 Uploaded rlegendre parents: 17 diff changeset	379 out.write(i + ',' + str(cond1[i]) + ',' + str(cond2[i]) + ',' + str(cond1_norm[i]) + ',' + str(cond2_norm[i]) + ',' + str(cond2_norm[i] / cond1_norm[i]) + '\n')
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	380 with errstate(all='ignore'):
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	381 chi = stats.chisquare(observed, expected)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	382 out.write('Khi2 test\n')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	383 out.write('T : ' + str(chi[0]) + '; p-value : ' + str(chi[1]) + '\n')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	384
b8c070add3b7 Uploaded rlegendre parents: diff changeset	385
b8c070add3b7 Uploaded rlegendre parents: diff changeset	386
b8c070add3b7 Uploaded rlegendre parents: diff changeset	387 # plot result
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	388 fig = pl.figure(figsize=(20,10), num=1)
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	389 width = .40
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	390 ind = arange(len(codon_sorted))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	391 ax = fig.add_subplot(111)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	392 pl.xlim(0, len(codon_sorted) + 1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	393 ax.spines['right'].set_color('none')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	394 ax.spines['top'].set_color('none')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	395 ax.xaxis.set_ticks([])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	396 ax.spines['left'].set_smart_bounds(True)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	397 ax.yaxis.set_ticks_position('left')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	398 ax.bar(ind, list(cond1_norm.itervalues()), width, facecolor=color1, yerr=std_cond1, error_kw={'elinewidth':1, 'ecolor':'black'}, label=c1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	399 ax.bar(ind + width, list(cond2_norm.itervalues()), width, yerr=std_cond2, facecolor=color2, error_kw={'elinewidth':1, 'ecolor':'black'}, label=c2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	400 for x, y, z in zip(ind, max_val, codon_sorted):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	401 ax.text(x + width, y + 0.2, '%s' % z, ha='center', va='bottom', fontsize=8)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	402 ax.set_ylabel('Ribosome Occupancy (percent of normalized reads)')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	403 ax.set_xlabel('Codons')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	404 handles, labels = ax.get_legend_handles_labels()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	405 ax.legend(handles, labels)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	406 pl.savefig(dirout + '/hist_codons.png', format="png", dpi=340)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	407 pl.clf()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	408
b8c070add3b7 Uploaded rlegendre parents: diff changeset	409
b8c070add3b7 Uploaded rlegendre parents: diff changeset	410 elif len(result) == 2 :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	411
b8c070add3b7 Uploaded rlegendre parents: diff changeset	412 # store each dict in OrderedDict sorted by key to make code more readable
b8c070add3b7 Uploaded rlegendre parents: diff changeset	413 cond1 = result[0]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	414 cond2 = result[1]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	415 cond1_norm = result[0].copy()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	416 cond2_norm = result[1].copy()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	417 # pdb.set_trace()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	418 # get codon order in one of list
b8c070add3b7 Uploaded rlegendre parents: diff changeset	419 codon_sorted = sorted(cond1.iterkeys(), reverse=False)
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	420 try:
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	421 # get sum of each list
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	422 sum1 = sum(list(cond1.itervalues()))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	423 sum2 = sum(list(cond2.itervalues()))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	424 # #Normalize values by sum of each libraries
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	425 cond1_norm.update ((x, (y / sum1) * 100.0) for x, y in cond1_norm.items())
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	426 cond2_norm.update((x, (y / sum2) * 100.0) for x, y in cond2_norm.items())
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	427 except ZeroDivisionError:
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	428 stop_err("Not enough reads to compute the codon occupancy. "+str(sum1)+" and "+str(sum2)+" reads are used for each condition, respectively.\n")
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	429
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	430 # # compute theorical count in COND2
b8c070add3b7 Uploaded rlegendre parents: diff changeset	431 cond2_count = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	432 for z in cond1_norm.itervalues() :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	433 count = int(z * sum2 / 100.0)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	434 cond2_count.append(count)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	435
b8c070add3b7 Uploaded rlegendre parents: diff changeset	436 expected = array(cond2_count)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	437 observed = array(list(cond2.itervalues()))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	438
b8c070add3b7 Uploaded rlegendre parents: diff changeset	439 AA = get_aa_dict(cond1_norm, cond2_norm)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	440
b8c070add3b7 Uploaded rlegendre parents: diff changeset	441 max_val = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	442 cond1_aa = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	443 cond2_aa = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	444 aa_name = list(AA.iterkeys())
b8c070add3b7 Uploaded rlegendre parents: diff changeset	445 for z in AA.itervalues():
b8c070add3b7 Uploaded rlegendre parents: diff changeset	446 cond1_aa.append(z[0])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	447 cond2_aa.append(z[1])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	448 max_val.append(max(z))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	449
b8c070add3b7 Uploaded rlegendre parents: diff changeset	450 # # plot amino acid profile :
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	451 fig = pl.figure(figsize=(15,10), num=1)
10 707807fee542 rlegendre parents: 0 diff changeset	452 width = .45
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	453 ax = fig.add_subplot(111)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	454 ind = arange(21)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	455 pl.xlim(0, 21)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	456 #kwargs = {"hatch":'x'}
b8c070add3b7 Uploaded rlegendre parents: diff changeset	457 #ax.bar(ind, cond1_aa, width, facecolor=color1, label=c1, **kwargs)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	458 #kwargs = {"hatch":'.'}
b8c070add3b7 Uploaded rlegendre parents: diff changeset	459 #ax.bar(ind + width, cond2_aa, width, facecolor=color2, label=c2, **kwargs)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	460 ax.bar(ind, cond1_aa, width, facecolor=color1, label=c1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	461 ax.bar(ind + width, cond2_aa, width, facecolor=color2, label=c2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	462 #for x, y, z in zip(ind, max_val, aa_name):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	463 # ax.text(x + width, y + 0.2, '%s' % z, ha='center', va='bottom', fontsize=14)
10 707807fee542 rlegendre parents: 0 diff changeset	464 axis_font = {'size':'10'}
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	465 pl.xticks(ind + width, aa_name,**axis_font)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	466 ax.spines['right'].set_visible(False)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	467 ax.spines['top'].set_visible(False)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	468 ax.yaxis.set_ticks_position('left')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	469 ax.xaxis.set_ticks_position('bottom')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	470 #ax.xaxis.set_ticks([])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	471 ax.set_ylabel('Ribosome Occupancy (percent of normalized reads)',**axis_font)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	472 ax.set_xlabel('Amino Acids', **axis_font)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	473 handles, labels = ax.get_legend_handles_labels()
10 707807fee542 rlegendre parents: 0 diff changeset	474 font_prop = font_manager.FontProperties(size=8)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	475 ax.legend(handles, labels, prop=font_prop)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	476 pl.savefig(dirout + '/hist_amino_acid.png', format="png", dpi=340)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	477 pl.clf()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	478
b8c070add3b7 Uploaded rlegendre parents: diff changeset	479 # write result
b8c070add3b7 Uploaded rlegendre parents: diff changeset	480 with open(outfile, 'w') as out :
19 385fc64fa988 Uploaded rlegendre parents: 17 diff changeset	481 out.write('Codon,Raw_' + c1 + ',Raw_' + c2 + ',Norm_' + c1 + ',Norm_' + c2 + ',FC(Mut/WT)\n')
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	482 for i in codon_sorted:
16 fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	483 if cond1_norm[i] == 0 and cond2_norm[i] == 0:
19 385fc64fa988 Uploaded rlegendre parents: 17 diff changeset	484 out.write(i + ',' + str(cond1[i]) + ',' + str(cond2[i]) + ',' + str(cond1_norm[i]) + ',' + str(cond2_norm[i]) + ',1.0\n')
16 fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	485 elif cond1_norm[i] == 0 :
19 385fc64fa988 Uploaded rlegendre parents: 17 diff changeset	486 out.write(i + ',' + str(cond1[i]) + ',' + str(cond2[i]) + ',' + str(cond1_norm[i]) + ',' + str(cond2_norm[i]) + ',0.0\n')
16 fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	487 else:
19 385fc64fa988 Uploaded rlegendre parents: 17 diff changeset	488 out.write(i + ',' + str(cond1[i]) + ',' + str(cond2[i]) + ',' + str(cond1_norm[i]) + ',' + str(cond2_norm[i]) + ',' + str(cond2_norm[i] / cond1_norm[i]) + '\n')
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	489 out.write('Khi2 test\n')
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	490 with errstate(all='ignore'):
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	491 chi = stats.chisquare(observed, expected)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	492 out.write('T : ' + str(chi[0]) + '; p-value : ' + str(chi[1]) + '\n')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	493
b8c070add3b7 Uploaded rlegendre parents: diff changeset	494 # # get max value for each codon for histogram
b8c070add3b7 Uploaded rlegendre parents: diff changeset	495 max_val = [] # # max value for graph
b8c070add3b7 Uploaded rlegendre parents: diff changeset	496 for i in cond1:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	497 # # max value for each codon
b8c070add3b7 Uploaded rlegendre parents: diff changeset	498 max_val.append(max(cond1_norm[i], cond2_norm[i]))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	499
b8c070add3b7 Uploaded rlegendre parents: diff changeset	500 # plot result
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	501 fig = pl.figure(figsize=(20,10), num=1)
10 707807fee542 rlegendre parents: 0 diff changeset	502 #fig = pl.figure(num=1)
707807fee542 rlegendre parents: 0 diff changeset	503 width = .40
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	504 ind = arange(len(codon_sorted))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	505 ax = fig.add_subplot(111)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	506 pl.xlim(0, len(codon_sorted) + 1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	507 ax.spines['right'].set_color('none')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	508 ax.spines['top'].set_color('none')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	509 ax.xaxis.set_ticks([])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	510 ax.spines['left'].set_smart_bounds(True)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	511 ax.yaxis.set_ticks_position('left')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	512 ax.bar(ind, list(cond1_norm.itervalues()), width, facecolor=color1, label=c1)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	513 ax.bar(ind + width, list(cond2_norm.itervalues()), width, facecolor=color2, label=c2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	514 for x, y, z in zip(ind, max_val, codon_sorted):
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	515 ax.text(x + width, y + 0.2, '%s' % z, ha='center', va='bottom', fontsize=8)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	516 ax.set_ylabel('Ribosome Occupancy (percent of normalized reads)')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	517 ax.set_xlabel('Codons')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	518 handles, labels = ax.get_legend_handles_labels()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	519 ax.legend(handles, labels)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	520 pl.savefig(dirout + '/hist_codons.png', format="png", dpi=340)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	521 pl.clf()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	522
b8c070add3b7 Uploaded rlegendre parents: diff changeset	523
b8c070add3b7 Uploaded rlegendre parents: diff changeset	524 else :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	525 stop_err('Error running codon usage plotting : ' + str(e))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	526
b8c070add3b7 Uploaded rlegendre parents: diff changeset	527
b8c070add3b7 Uploaded rlegendre parents: diff changeset	528 return (cond1_norm, cond2_norm, chi[1])
b8c070add3b7 Uploaded rlegendre parents: diff changeset	529
b8c070add3b7 Uploaded rlegendre parents: diff changeset	530 def write_html_file(html, chi_pval, cond1, cond2):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	531 try :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	532
b8c070add3b7 Uploaded rlegendre parents: diff changeset	533
b8c070add3b7 Uploaded rlegendre parents: diff changeset	534 html_str = """
b8c070add3b7 Uploaded rlegendre parents: diff changeset	535 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
b8c070add3b7 Uploaded rlegendre parents: diff changeset	536 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
b8c070add3b7 Uploaded rlegendre parents: diff changeset	537
b8c070add3b7 Uploaded rlegendre parents: diff changeset	538 <html xmlns="http://www.w3.org/1999/xhtml">
b8c070add3b7 Uploaded rlegendre parents: diff changeset	539 <head>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	540 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
b8c070add3b7 Uploaded rlegendre parents: diff changeset	541 <link href="/static/june_2007_style/blue/base.css" media="screen" rel="Stylesheet" type="text/css" />
b8c070add3b7 Uploaded rlegendre parents: diff changeset	542 </head>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	543 <body>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	544 <h3>Global visualization</h3>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	545 <p>
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	546 <h5>Visualization of density footprint in each codon.</h5><br> If user has selected "Yes" for the replicate option the standard deviation between each replicate is plotted as an error bar in histogram.<br>
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	547 <img border="0" src="hist_codons.png" width="1040"/>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	548 </p>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	549 <p>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	550 <h5>Test for homogeneity distribution between each condition</h5><br>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	551 H0 : %s and %s are same distribution <br>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	552 Khi2 test p-value: %s<br><br>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	553 If p-value less than 0.05, we can reject homogeneity distribution so we can hypothesize that distributions are not the same. Otherwise, we accept H0<br>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	554
b8c070add3b7 Uploaded rlegendre parents: diff changeset	555 </p>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	556 <p>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	557 <h5>Visualization of density footprint in each codon groupe by amino acid</h5><br>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	558 <img border="0" src="hist_amino_acid.png" width="1040"/>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	559 </p>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	560 </body>
b8c070add3b7 Uploaded rlegendre parents: diff changeset	561 </html> """ % (cond1,cond2,chi_pval)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	562
b8c070add3b7 Uploaded rlegendre parents: diff changeset	563
b8c070add3b7 Uploaded rlegendre parents: diff changeset	564 html_file = open(html, "w")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	565 html_file.write(html_str)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	566 html_file.close()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	567
b8c070add3b7 Uploaded rlegendre parents: diff changeset	568 except Exception, e :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	569 stop_err('Error during html page creation : ' + str(e))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	570
b8c070add3b7 Uploaded rlegendre parents: diff changeset	571
b8c070add3b7 Uploaded rlegendre parents: diff changeset	572
b8c070add3b7 Uploaded rlegendre parents: diff changeset	573
b8c070add3b7 Uploaded rlegendre parents: diff changeset	574 def check_codons_list (codons) :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	575
b8c070add3b7 Uploaded rlegendre parents: diff changeset	576 for codon in codons :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	577 if codon not in init_codon_dict().iterkeys() :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	578 stop_err('Please to enter a valid codon : ' + codon + ' is not find\n')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	579
b8c070add3b7 Uploaded rlegendre parents: diff changeset	580
b8c070add3b7 Uploaded rlegendre parents: diff changeset	581 def check_index_bam (bamfile) :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	582 # #testing indexed bam file
b8c070add3b7 Uploaded rlegendre parents: diff changeset	583 if os.path.isfile(bamfile + ".bai") :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	584 pass
b8c070add3b7 Uploaded rlegendre parents: diff changeset	585 else :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	586 cmd = "samtools index %s " % (bamfile)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	587 proc = subprocess.Popen(args=cmd, shell=True, stderr=subprocess.PIPE)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	588 returncode = proc.wait()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	589 # if returncode != 0:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	590 # raise Exception
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	591
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	592 def plot_fc (cond1, cond2, site, dirout):
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	593
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	594 fc = cond1.copy()
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	595
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	596 for key, value in fc.iteritems():
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	597 if cond1[key] == 0:
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	598 fc[key] = 1
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	599 else:
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	600 fc[key] = cond2[key]/cond1[key]
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	601
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	602 index = arange(len(fc.keys()))
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	603 label = fc.keys()
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	604 label = [w.replace('T','U') for w in label]
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	605 pl.figure(figsize=(15,10), num=1)
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	606 ax = pl.subplot(1,1,1)
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	607 pl.xticks([])
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	608 pl.scatter(index, fc.values(), color='b')
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	609 pl.axhline(y=1,color='r')
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	610 pl.xticks(index, label, rotation=90)
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	611 pl.ylabel('Foldchange of codon occupancy')
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	612 ax.yaxis.set_ticks_position('left')
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	613 ax.xaxis.set_ticks_position('bottom')
16 fcfdb2607cb8 Uploaded rlegendre parents: 15 diff changeset	614 pl.ylim(-1,3)
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	615 pl.title(site+" site")
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	616 pl.savefig(dirout + '/fc_codons.png', format="png", dpi=340)
702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	617
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	618
b8c070add3b7 Uploaded rlegendre parents: diff changeset	619 def __main__():
10 707807fee542 rlegendre parents: 0 diff changeset	620
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	621
b8c070add3b7 Uploaded rlegendre parents: diff changeset	622 # Parse command line options
b8c070add3b7 Uploaded rlegendre parents: diff changeset	623 parser = optparse.OptionParser()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	624 parser.add_option("-g", "--gff", dest="gff", type="string",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	625 help="gff file", metavar="FILE")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	626
b8c070add3b7 Uploaded rlegendre parents: diff changeset	627 parser.add_option("-1", "--file1", dest="file1", type="string",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	628 help="Bam Ribo-Seq alignments cond 1, if rep option, separate files by commas ", metavar="FILE")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	629
b8c070add3b7 Uploaded rlegendre parents: diff changeset	630 parser.add_option("-2", "--file2", dest="file2", type="string",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	631 help="Bam Ribo-Seq alignments cond 2, if rep option, separate files by commas", metavar="FILE")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	632
b8c070add3b7 Uploaded rlegendre parents: diff changeset	633 parser.add_option("-c", "--cond1", dest="c1", type="string",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	634 help="Name for first condition", metavar="STR")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	635
b8c070add3b7 Uploaded rlegendre parents: diff changeset	636 parser.add_option("-C", "--cond2", dest="c2", type="string",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	637 help="Name of second condition", metavar="STR")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	638
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	639 parser.add_option("-k", "--kmer", dest="kmer", type="int", default = 28 ,
10 707807fee542 rlegendre parents: 0 diff changeset	640 help="Length of your phasing reads", metavar="INT")
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	641
b8c070add3b7 Uploaded rlegendre parents: diff changeset	642 # parser.add_option("-l", "--list", dest="list_cod", type= "string",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	643 # help="list of codons to compare to other", metavar="STR")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	644
b8c070add3b7 Uploaded rlegendre parents: diff changeset	645 parser.add_option("-o", "--out", dest="outfile", type="string",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	646 help="write report to FILE", metavar="FILE")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	647
b8c070add3b7 Uploaded rlegendre parents: diff changeset	648 parser.add_option("-d", "--dirout", dest="dirout", type="string",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	649 help="write report to PNG files", metavar="FILE")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	650
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	651 parser.add_option("-a", "--asite", dest="asite", type="int", default = 15 ,
7c944fd9907e release 2 rlegendre parents: 10 diff changeset	652 help="Off-set from the 5'end of the footprint to the A-site (default is 15)", metavar="INT")
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	653
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	654 parser.add_option("-s", "--site", dest="site", type="string", default = "A" ,
7c944fd9907e release 2 rlegendre parents: 10 diff changeset	655 help="Script can compute in site A, P or E (default is A-site)", metavar="A\|P\|E")
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	656
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	657 parser.add_option("-r", "--rep", dest="rep", type="string", default = "no" ,
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	658 help="if replicate or not", metavar="yes\|no")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	659
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	660 parser.add_option("-x", "--hex_col1", dest="color1", type= "string", default = "SkyBlue" ,
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	661 help="Color for first condition", metavar="STR")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	662
13 7c944fd9907e release 2 rlegendre parents: 10 diff changeset	663 parser.add_option("-X", "--hex_col2", dest="color2", type= "string", default = "Plum" ,
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	664 help="Color for second condition", metavar="STR")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	665
b8c070add3b7 Uploaded rlegendre parents: diff changeset	666 parser.add_option("-q", "--quiet",
b8c070add3b7 Uploaded rlegendre parents: diff changeset	667 action="store_false", dest="verbose", default=True,
b8c070add3b7 Uploaded rlegendre parents: diff changeset	668 help="don't print status messages to stdout")
b8c070add3b7 Uploaded rlegendre parents: diff changeset	669
b8c070add3b7 Uploaded rlegendre parents: diff changeset	670 (options, args) = parser.parse_args()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	671 print "Begin codon frequency analysis at", time.asctime(time.localtime(time.time()))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	672
b8c070add3b7 Uploaded rlegendre parents: diff changeset	673 try:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	674 authorized_site = ["A", "P", "E"]
b8c070add3b7 Uploaded rlegendre parents: diff changeset	675 if options.site not in authorized_site :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	676 stop_err(options.site + ' is not a authorized ribosome site')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	677
b8c070add3b7 Uploaded rlegendre parents: diff changeset	678 ## Check if colors exist
b8c070add3b7 Uploaded rlegendre parents: diff changeset	679 if not colors.is_color_like(options.color1) :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	680 stop_err( options.color1+' is not a proper color' )
b8c070add3b7 Uploaded rlegendre parents: diff changeset	681 if not colors.is_color_like(options.color2) :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	682 stop_err( options.color2+' is not a proper color' )
b8c070add3b7 Uploaded rlegendre parents: diff changeset	683
b8c070add3b7 Uploaded rlegendre parents: diff changeset	684
b8c070add3b7 Uploaded rlegendre parents: diff changeset	685 #### NOT USE IN FINAL VERSION
b8c070add3b7 Uploaded rlegendre parents: diff changeset	686 # # get codon list
b8c070add3b7 Uploaded rlegendre parents: diff changeset	687 # codons = options.list_cod.upper().split(',')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	688 # check_codons_list(codons)
10 707807fee542 rlegendre parents: 0 diff changeset	689 GFF = HTSeq.GFF_Reader(options.gff)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	690 # # get html file and directory :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	691 (html, html_dir) = options.dirout.split(',')
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	692 if not os.path.exists(html_dir):
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	693 try:
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	694 os.mkdir(html_dir)
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	695 except Exception, e :
c87c40e642af Uploaded rlegendre parents: 16 diff changeset	696 stop_err('Error running make directory : ' + str(e))
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	697 # #RUN analysis
b8c070add3b7 Uploaded rlegendre parents: diff changeset	698 # #If there are replicats
b8c070add3b7 Uploaded rlegendre parents: diff changeset	699 if options.rep == "yes" :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	700 result = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	701 # split name of each file options by ","
b8c070add3b7 Uploaded rlegendre parents: diff changeset	702 cond1 = options.file1.split(',')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	703 cond2 = options.file2.split(',')
b8c070add3b7 Uploaded rlegendre parents: diff changeset	704 # # calcul for each file
b8c070add3b7 Uploaded rlegendre parents: diff changeset	705 for fh in itertools.chain(cond1, cond2):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	706 check_index_bam (fh)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	707 result.append(get_codon_usage(fh, GFF, options.site, options.kmer, options.asite))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	708 (cond1, cond2, chi_pval) = plot_codon_usage(result, html_dir, options.c1, options.c2, options.outfile,options.color1, options.color2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	709 # t_pval = compute_FC_plot(cond1,cond2,codons,html_dir)
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	710 plot_fc (cond1, cond2, options.site, html_dir)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	711
b8c070add3b7 Uploaded rlegendre parents: diff changeset	712 # #If there are no replicat
b8c070add3b7 Uploaded rlegendre parents: diff changeset	713 elif options.rep == "no" :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	714 result = []
b8c070add3b7 Uploaded rlegendre parents: diff changeset	715 # #calcul for each cond
b8c070add3b7 Uploaded rlegendre parents: diff changeset	716 for fh in (options.file1, options.file2):
b8c070add3b7 Uploaded rlegendre parents: diff changeset	717 check_index_bam (fh)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	718 result.append(get_codon_usage(fh, GFF, options.site, options.kmer,options.asite))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	719 (cond1, cond2, chi_pval) = plot_codon_usage(result, html_dir, options.c1, options.c2, options.outfile,options.color1, options.color2)
17 c87c40e642af Uploaded rlegendre parents: 16 diff changeset	720
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	721 # t_pval = compute_FC_plot(cond1,cond2,codons,html_dir)
15 702e60e819c2 Uploaded rlegendre parents: 14 diff changeset	722 plot_fc (cond1, cond2, options.site, html_dir)
0 b8c070add3b7 Uploaded rlegendre parents: diff changeset	723 else :
b8c070add3b7 Uploaded rlegendre parents: diff changeset	724 sys.stderr.write("Please enter yes or no for --rep option. Programme aborted at %s" % time.asctime(time.localtime(time.time())))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	725 sys.exit()
b8c070add3b7 Uploaded rlegendre parents: diff changeset	726
b8c070add3b7 Uploaded rlegendre parents: diff changeset	727 # write_html_file(html,chi_pval,t_pval,codons,options.c1, options.c2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	728 write_html_file(html, chi_pval, options.c1, options.c2)
b8c070add3b7 Uploaded rlegendre parents: diff changeset	729
b8c070add3b7 Uploaded rlegendre parents: diff changeset	730 print "Finish codon frequency analysis at", time.asctime(time.localtime(time.time()))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	731 except Exception, e:
b8c070add3b7 Uploaded rlegendre parents: diff changeset	732 stop_err('Error running codon frequency analysis (main program) : ' + str(e))
b8c070add3b7 Uploaded rlegendre parents: diff changeset	733
b8c070add3b7 Uploaded rlegendre parents: diff changeset	734
b8c070add3b7 Uploaded rlegendre parents: diff changeset	735 if __name__=="__main__":
b8c070add3b7 Uploaded rlegendre parents: diff changeset	736 __main__()

Mercurial > repos > rlegendre > ribo_tools

annotate get_codon_frequency.py @ 19:385fc64fa988 draft default tip