cwpair2: cwpair2_util.py annotate

annotate cwpair2_util.py @ 1:4d86371aafa8 draft

Uploaded

author	greg
date	Tue, 17 Nov 2015 16:53:50 -0500
parents	507521bf124a
children	279cdc63bcff

rev	line source
0 507521bf124a Uploaded greg parents: diff changeset	1 import bisect
507521bf124a Uploaded greg parents: diff changeset	2 import csv
507521bf124a Uploaded greg parents: diff changeset	3 import os
507521bf124a Uploaded greg parents: diff changeset	4 import sys
507521bf124a Uploaded greg parents: diff changeset	5 import traceback
1 4d86371aafa8 Uploaded greg parents: 0 diff changeset	6 import matplotlib
4d86371aafa8 Uploaded greg parents: 0 diff changeset	7 matplotlib.use('Agg')
0 507521bf124a Uploaded greg parents: diff changeset	8 from matplotlib import pyplot
507521bf124a Uploaded greg parents: diff changeset	9
507521bf124a Uploaded greg parents: diff changeset	10 DETAILS = 'D'
507521bf124a Uploaded greg parents: diff changeset	11 FINAL_PLOTS = 'F'
507521bf124a Uploaded greg parents: diff changeset	12 ORPHANS = 'O'
507521bf124a Uploaded greg parents: diff changeset	13 PREVIEW_PLOTS = 'P'
507521bf124a Uploaded greg parents: diff changeset	14 SIMPLES = 'S'
507521bf124a Uploaded greg parents: diff changeset	15 STATS_GRAPH = 'C'
507521bf124a Uploaded greg parents: diff changeset	16 GFF_EXT = 'gff'
507521bf124a Uploaded greg parents: diff changeset	17 TABULAR_EXT = 'tabular'
507521bf124a Uploaded greg parents: diff changeset	18
507521bf124a Uploaded greg parents: diff changeset	19 # Graph settings.
507521bf124a Uploaded greg parents: diff changeset	20 COLORS = 'krg'
507521bf124a Uploaded greg parents: diff changeset	21 Y_LABEL = 'Peak-pair counts'
507521bf124a Uploaded greg parents: diff changeset	22 X_LABEL = 'Peak-pair distance (bp)'
507521bf124a Uploaded greg parents: diff changeset	23 TICK_WIDTH = 3
507521bf124a Uploaded greg parents: diff changeset	24 ADJUST = [0.140, 0.9, 0.9, 0.1]
507521bf124a Uploaded greg parents: diff changeset	25 pyplot.rc('xtick.major', size=10.00)
507521bf124a Uploaded greg parents: diff changeset	26 pyplot.rc('ytick.major', size=10.00)
507521bf124a Uploaded greg parents: diff changeset	27 pyplot.rc('lines', linewidth=4.00)
507521bf124a Uploaded greg parents: diff changeset	28 pyplot.rc('axes', linewidth=3.00)
1 4d86371aafa8 Uploaded greg parents: 0 diff changeset	29 pyplot.rc('font', family='Bitstream Vera Sans', size=32.0)
0 507521bf124a Uploaded greg parents: diff changeset	30
507521bf124a Uploaded greg parents: diff changeset	31
507521bf124a Uploaded greg parents: diff changeset	32 class FrequencyDistribution(object):
507521bf124a Uploaded greg parents: diff changeset	33
507521bf124a Uploaded greg parents: diff changeset	34 def __init__(self, start, end, binsize=10, d=None):
507521bf124a Uploaded greg parents: diff changeset	35 self.start = start
507521bf124a Uploaded greg parents: diff changeset	36 self.end = end
507521bf124a Uploaded greg parents: diff changeset	37 self.dist = d or {}
507521bf124a Uploaded greg parents: diff changeset	38 self.binsize = binsize
507521bf124a Uploaded greg parents: diff changeset	39
507521bf124a Uploaded greg parents: diff changeset	40 def get_bin(self, x):
507521bf124a Uploaded greg parents: diff changeset	41 """
507521bf124a Uploaded greg parents: diff changeset	42 Returns the bin in which a data point falls
507521bf124a Uploaded greg parents: diff changeset	43 """
507521bf124a Uploaded greg parents: diff changeset	44 return self.start + (x-self.start) // self.binsize * self.binsize + self.binsize/2.0
507521bf124a Uploaded greg parents: diff changeset	45
507521bf124a Uploaded greg parents: diff changeset	46 def add(self, x):
507521bf124a Uploaded greg parents: diff changeset	47 x = self.get_bin(x)
507521bf124a Uploaded greg parents: diff changeset	48 self.dist[x] = self.dist.get(x, 0) + 1
507521bf124a Uploaded greg parents: diff changeset	49
507521bf124a Uploaded greg parents: diff changeset	50 def graph_series(self):
507521bf124a Uploaded greg parents: diff changeset	51 x = []
507521bf124a Uploaded greg parents: diff changeset	52 y = []
507521bf124a Uploaded greg parents: diff changeset	53 for i in range(self.start, self.end, self.binsize):
507521bf124a Uploaded greg parents: diff changeset	54 center = self.get_bin(i)
507521bf124a Uploaded greg parents: diff changeset	55 x.append(center)
507521bf124a Uploaded greg parents: diff changeset	56 y.append(self.dist.get(center, 0))
507521bf124a Uploaded greg parents: diff changeset	57 return x, y
507521bf124a Uploaded greg parents: diff changeset	58
507521bf124a Uploaded greg parents: diff changeset	59 def mode(self):
507521bf124a Uploaded greg parents: diff changeset	60 return max(self.dist.items(), key=lambda data: data[1])[0]
507521bf124a Uploaded greg parents: diff changeset	61
507521bf124a Uploaded greg parents: diff changeset	62 def size(self):
507521bf124a Uploaded greg parents: diff changeset	63 return sum(self.dist.values())
507521bf124a Uploaded greg parents: diff changeset	64
507521bf124a Uploaded greg parents: diff changeset	65
507521bf124a Uploaded greg parents: diff changeset	66 def stop_err(msg):
507521bf124a Uploaded greg parents: diff changeset	67 sys.stderr.write(msg)
507521bf124a Uploaded greg parents: diff changeset	68 sys.exit(1)
507521bf124a Uploaded greg parents: diff changeset	69
507521bf124a Uploaded greg parents: diff changeset	70
507521bf124a Uploaded greg parents: diff changeset	71 def distance(peak1, peak2):
507521bf124a Uploaded greg parents: diff changeset	72 return (peak2[1]+peak2[2])/2 - (peak1[1]+peak1[2])/2
507521bf124a Uploaded greg parents: diff changeset	73
507521bf124a Uploaded greg parents: diff changeset	74
507521bf124a Uploaded greg parents: diff changeset	75 def gff_row(cname, start, end, score, source, type='.', strand='.', phase='.', attrs={}):
507521bf124a Uploaded greg parents: diff changeset	76 return (cname, source, type, start, end, score, strand, phase, gff_attrs(attrs))
507521bf124a Uploaded greg parents: diff changeset	77
507521bf124a Uploaded greg parents: diff changeset	78
507521bf124a Uploaded greg parents: diff changeset	79 def gff_attrs(d):
507521bf124a Uploaded greg parents: diff changeset	80 if not d:
507521bf124a Uploaded greg parents: diff changeset	81 return '.'
507521bf124a Uploaded greg parents: diff changeset	82 return ';'.join('%s=%s' % item for item in d.items())
507521bf124a Uploaded greg parents: diff changeset	83
507521bf124a Uploaded greg parents: diff changeset	84
507521bf124a Uploaded greg parents: diff changeset	85 def parse_chromosomes(reader):
507521bf124a Uploaded greg parents: diff changeset	86 # This version of cwpair2 accepts only gff format as input.
507521bf124a Uploaded greg parents: diff changeset	87 chromosomes = {}
507521bf124a Uploaded greg parents: diff changeset	88 reader.next()
507521bf124a Uploaded greg parents: diff changeset	89 for line in reader:
507521bf124a Uploaded greg parents: diff changeset	90 cname, junk, junk, start, end, value, strand, junk, junk = line
507521bf124a Uploaded greg parents: diff changeset	91 start = int(start)
507521bf124a Uploaded greg parents: diff changeset	92 end = int(end)
507521bf124a Uploaded greg parents: diff changeset	93 value = float(value)
507521bf124a Uploaded greg parents: diff changeset	94 if cname not in chromosomes:
507521bf124a Uploaded greg parents: diff changeset	95 chromosomes[cname] = []
507521bf124a Uploaded greg parents: diff changeset	96 peaks = chromosomes[cname]
507521bf124a Uploaded greg parents: diff changeset	97 peaks.append((strand, start, end, value))
507521bf124a Uploaded greg parents: diff changeset	98 return chromosomes
507521bf124a Uploaded greg parents: diff changeset	99
507521bf124a Uploaded greg parents: diff changeset	100
507521bf124a Uploaded greg parents: diff changeset	101 def perc95(chromosomes):
507521bf124a Uploaded greg parents: diff changeset	102 """
507521bf124a Uploaded greg parents: diff changeset	103 Returns the 95th percentile value of the given chromosomes.
507521bf124a Uploaded greg parents: diff changeset	104 """
507521bf124a Uploaded greg parents: diff changeset	105 values = []
507521bf124a Uploaded greg parents: diff changeset	106 for peaks in chromosomes.values():
507521bf124a Uploaded greg parents: diff changeset	107 for peak in peaks:
507521bf124a Uploaded greg parents: diff changeset	108 values.append(peak[3])
507521bf124a Uploaded greg parents: diff changeset	109 values.sort()
507521bf124a Uploaded greg parents: diff changeset	110 # Get 95% value
507521bf124a Uploaded greg parents: diff changeset	111 return values[int(len(values)*0.95)]
507521bf124a Uploaded greg parents: diff changeset	112
507521bf124a Uploaded greg parents: diff changeset	113
507521bf124a Uploaded greg parents: diff changeset	114 def filter(chromosomes, threshold=0.05):
507521bf124a Uploaded greg parents: diff changeset	115 """
507521bf124a Uploaded greg parents: diff changeset	116 Filters the peaks to those above a threshold. Threshold < 1.0 is interpreted
507521bf124a Uploaded greg parents: diff changeset	117 as a proportion of the maximum, >=1.0 as an absolute value.
507521bf124a Uploaded greg parents: diff changeset	118 """
507521bf124a Uploaded greg parents: diff changeset	119 if threshold < 1:
507521bf124a Uploaded greg parents: diff changeset	120 p95 = perc95(chromosomes)
507521bf124a Uploaded greg parents: diff changeset	121 threshold = p95 * threshold
507521bf124a Uploaded greg parents: diff changeset	122 # Make the threshold a proportion of the
507521bf124a Uploaded greg parents: diff changeset	123 for cname, peaks in chromosomes.items():
507521bf124a Uploaded greg parents: diff changeset	124 chromosomes[cname] = [peak for peak in peaks if peak[3] > threshold]
507521bf124a Uploaded greg parents: diff changeset	125
507521bf124a Uploaded greg parents: diff changeset	126
507521bf124a Uploaded greg parents: diff changeset	127 def split_strands(chromosome):
507521bf124a Uploaded greg parents: diff changeset	128 watson = [peak for peak in chromosome if peak[0] == '+']
507521bf124a Uploaded greg parents: diff changeset	129 crick = [peak for peak in chromosome if peak[0] == '-']
507521bf124a Uploaded greg parents: diff changeset	130 return watson, crick
507521bf124a Uploaded greg parents: diff changeset	131
507521bf124a Uploaded greg parents: diff changeset	132
507521bf124a Uploaded greg parents: diff changeset	133 def all_pair_distribution(chromosomes, up_distance, down_distance, binsize):
507521bf124a Uploaded greg parents: diff changeset	134 dist = FrequencyDistribution(-up_distance, down_distance, binsize=binsize)
507521bf124a Uploaded greg parents: diff changeset	135 for cname, data in chromosomes.items():
507521bf124a Uploaded greg parents: diff changeset	136 watson, crick = split_strands(data)
507521bf124a Uploaded greg parents: diff changeset	137 crick.sort(key=lambda data: float(data[1]))
507521bf124a Uploaded greg parents: diff changeset	138 keys = make_keys(crick)
507521bf124a Uploaded greg parents: diff changeset	139 for peak in watson:
507521bf124a Uploaded greg parents: diff changeset	140 for cpeak in get_window(crick, peak, up_distance, down_distance, keys):
507521bf124a Uploaded greg parents: diff changeset	141 dist.add(distance(peak, cpeak))
507521bf124a Uploaded greg parents: diff changeset	142 return dist
507521bf124a Uploaded greg parents: diff changeset	143
507521bf124a Uploaded greg parents: diff changeset	144
507521bf124a Uploaded greg parents: diff changeset	145 def make_keys(crick):
507521bf124a Uploaded greg parents: diff changeset	146 return [(data[1] + data[2])//2 for data in crick]
507521bf124a Uploaded greg parents: diff changeset	147
507521bf124a Uploaded greg parents: diff changeset	148
507521bf124a Uploaded greg parents: diff changeset	149 def get_window(crick, peak, up_distance, down_distance, keys=None):
507521bf124a Uploaded greg parents: diff changeset	150 """
507521bf124a Uploaded greg parents: diff changeset	151 Returns a window of all crick peaks within a distance of a watson peak.
507521bf124a Uploaded greg parents: diff changeset	152 crick strand MUST be sorted by distance
507521bf124a Uploaded greg parents: diff changeset	153 """
507521bf124a Uploaded greg parents: diff changeset	154 strand, start, end, value = peak
507521bf124a Uploaded greg parents: diff changeset	155 midpoint = (start + end) // 2
507521bf124a Uploaded greg parents: diff changeset	156 lower = midpoint - up_distance
507521bf124a Uploaded greg parents: diff changeset	157 upper = midpoint + down_distance
507521bf124a Uploaded greg parents: diff changeset	158 keys = keys or make_keys(crick)
507521bf124a Uploaded greg parents: diff changeset	159 start_index = bisect.bisect_left(keys, lower)
507521bf124a Uploaded greg parents: diff changeset	160 end_index = bisect.bisect_right(keys, upper)
507521bf124a Uploaded greg parents: diff changeset	161 return [cpeak for cpeak in crick[start_index:end_index]]
507521bf124a Uploaded greg parents: diff changeset	162
507521bf124a Uploaded greg parents: diff changeset	163
507521bf124a Uploaded greg parents: diff changeset	164 def match_largest(window, peak):
507521bf124a Uploaded greg parents: diff changeset	165 if not window:
507521bf124a Uploaded greg parents: diff changeset	166 return None
507521bf124a Uploaded greg parents: diff changeset	167 return max(window, key=lambda cpeak: cpeak[3])
507521bf124a Uploaded greg parents: diff changeset	168
507521bf124a Uploaded greg parents: diff changeset	169
507521bf124a Uploaded greg parents: diff changeset	170 def match_closest(window, peak):
507521bf124a Uploaded greg parents: diff changeset	171 if not window:
507521bf124a Uploaded greg parents: diff changeset	172 return None
507521bf124a Uploaded greg parents: diff changeset	173
507521bf124a Uploaded greg parents: diff changeset	174 def key(cpeak):
507521bf124a Uploaded greg parents: diff changeset	175 d = distance(peak, cpeak)
507521bf124a Uploaded greg parents: diff changeset	176 # Search negative distances last
507521bf124a Uploaded greg parents: diff changeset	177 if d < 0:
507521bf124a Uploaded greg parents: diff changeset	178 # And then prefer less negative distances
507521bf124a Uploaded greg parents: diff changeset	179 d = 10000 - d
507521bf124a Uploaded greg parents: diff changeset	180 return d
507521bf124a Uploaded greg parents: diff changeset	181 return min(window, key=key)
507521bf124a Uploaded greg parents: diff changeset	182
507521bf124a Uploaded greg parents: diff changeset	183
507521bf124a Uploaded greg parents: diff changeset	184 def match_mode(window, peak, mode):
507521bf124a Uploaded greg parents: diff changeset	185 if not window:
507521bf124a Uploaded greg parents: diff changeset	186 return None
507521bf124a Uploaded greg parents: diff changeset	187 return min(window, key=lambda cpeak: abs(distance(peak, cpeak)-mode))
507521bf124a Uploaded greg parents: diff changeset	188
507521bf124a Uploaded greg parents: diff changeset	189 METHODS = {'mode': match_mode, 'closest': match_closest, 'largest': match_largest}
507521bf124a Uploaded greg parents: diff changeset	190
507521bf124a Uploaded greg parents: diff changeset	191
507521bf124a Uploaded greg parents: diff changeset	192 def frequency_plot(freqs, fname, labels=[], title=''):
507521bf124a Uploaded greg parents: diff changeset	193 pyplot.clf()
507521bf124a Uploaded greg parents: diff changeset	194 pyplot.figure(figsize=(10, 10))
507521bf124a Uploaded greg parents: diff changeset	195 for i, freq in enumerate(freqs):
507521bf124a Uploaded greg parents: diff changeset	196 x, y = freq.graph_series()
507521bf124a Uploaded greg parents: diff changeset	197 pyplot.plot(x, y, '%s-' % COLORS[i])
507521bf124a Uploaded greg parents: diff changeset	198 if len(freqs) > 1:
507521bf124a Uploaded greg parents: diff changeset	199 pyplot.legend(labels)
507521bf124a Uploaded greg parents: diff changeset	200 pyplot.xlim(freq.start, freq.end)
507521bf124a Uploaded greg parents: diff changeset	201 pyplot.ylim(ymin=0)
507521bf124a Uploaded greg parents: diff changeset	202 pyplot.ylabel(Y_LABEL)
507521bf124a Uploaded greg parents: diff changeset	203 pyplot.xlabel(X_LABEL)
507521bf124a Uploaded greg parents: diff changeset	204 pyplot.subplots_adjust(left=ADJUST[0], right=ADJUST[1], top=ADJUST[2], bottom=ADJUST[3])
507521bf124a Uploaded greg parents: diff changeset	205 # Get the current axes
507521bf124a Uploaded greg parents: diff changeset	206 ax = pyplot.gca()
507521bf124a Uploaded greg parents: diff changeset	207 for l in ax.get_xticklines() + ax.get_yticklines():
507521bf124a Uploaded greg parents: diff changeset	208 l.set_markeredgewidth(TICK_WIDTH)
507521bf124a Uploaded greg parents: diff changeset	209 pyplot.savefig(fname)
507521bf124a Uploaded greg parents: diff changeset	210
507521bf124a Uploaded greg parents: diff changeset	211
507521bf124a Uploaded greg parents: diff changeset	212 def create_directories(method):
507521bf124a Uploaded greg parents: diff changeset	213 if method == 'all':
507521bf124a Uploaded greg parents: diff changeset	214 match_methods = METHODS.keys()
507521bf124a Uploaded greg parents: diff changeset	215 else:
507521bf124a Uploaded greg parents: diff changeset	216 match_methods = [method]
507521bf124a Uploaded greg parents: diff changeset	217 for match_method in match_methods:
507521bf124a Uploaded greg parents: diff changeset	218 os.mkdir('%s_%s' % (match_method, DETAILS))
507521bf124a Uploaded greg parents: diff changeset	219 os.mkdir('%s_%s' % (match_method, FINAL_PLOTS))
507521bf124a Uploaded greg parents: diff changeset	220 os.mkdir('%s_%s' % (match_method, ORPHANS))
507521bf124a Uploaded greg parents: diff changeset	221 os.mkdir('%s_%s' % (match_method, PREVIEW_PLOTS))
507521bf124a Uploaded greg parents: diff changeset	222 os.mkdir('%s_%s' % (match_method, SIMPLES))
507521bf124a Uploaded greg parents: diff changeset	223 os.mkdir('%s_%s' % (match_method, STATS_GRAPH))
507521bf124a Uploaded greg parents: diff changeset	224
507521bf124a Uploaded greg parents: diff changeset	225
507521bf124a Uploaded greg parents: diff changeset	226 def process_file(dataset_path, galaxy_hid, method, threshold, up_distance, down_distance,
507521bf124a Uploaded greg parents: diff changeset	227 binsize, output_files, plot_format, sort_chromosome, sort_score):
507521bf124a Uploaded greg parents: diff changeset	228 if method == 'all':
507521bf124a Uploaded greg parents: diff changeset	229 match_methods = METHODS.keys()
507521bf124a Uploaded greg parents: diff changeset	230 else:
507521bf124a Uploaded greg parents: diff changeset	231 match_methods = [method]
507521bf124a Uploaded greg parents: diff changeset	232 statistics = []
507521bf124a Uploaded greg parents: diff changeset	233 for match_method in match_methods:
507521bf124a Uploaded greg parents: diff changeset	234 stats = perform_process(dataset_path,
507521bf124a Uploaded greg parents: diff changeset	235 galaxy_hid,
507521bf124a Uploaded greg parents: diff changeset	236 match_method,
507521bf124a Uploaded greg parents: diff changeset	237 threshold,
507521bf124a Uploaded greg parents: diff changeset	238 up_distance,
507521bf124a Uploaded greg parents: diff changeset	239 down_distance,
507521bf124a Uploaded greg parents: diff changeset	240 binsize,
507521bf124a Uploaded greg parents: diff changeset	241 output_files,
507521bf124a Uploaded greg parents: diff changeset	242 plot_format,
507521bf124a Uploaded greg parents: diff changeset	243 sort_chromosome,
507521bf124a Uploaded greg parents: diff changeset	244 sort_score)
507521bf124a Uploaded greg parents: diff changeset	245 statistics.append(stats)
507521bf124a Uploaded greg parents: diff changeset	246 if output_files == 'all' and method == 'all':
507521bf124a Uploaded greg parents: diff changeset	247 frequency_plot([s['dist'] for s in statistics],
507521bf124a Uploaded greg parents: diff changeset	248 statistics[0]['graph_path'],
507521bf124a Uploaded greg parents: diff changeset	249 labels=METHODS.keys())
507521bf124a Uploaded greg parents: diff changeset	250 return statistics
507521bf124a Uploaded greg parents: diff changeset	251
507521bf124a Uploaded greg parents: diff changeset	252
507521bf124a Uploaded greg parents: diff changeset	253 def perform_process(dataset_path, galaxy_hid, method, threshold, up_distance,
507521bf124a Uploaded greg parents: diff changeset	254 down_distance, binsize, output_files, plot_format, sort_chromosome, sort_score):
507521bf124a Uploaded greg parents: diff changeset	255 output_details = output_files in ["all", "simple_orphan_detail"]
507521bf124a Uploaded greg parents: diff changeset	256 output_plots = output_files in ["all"]
507521bf124a Uploaded greg parents: diff changeset	257 output_orphans = output_files in ["all", "simple_orphan", "simple_orphan_detail"]
507521bf124a Uploaded greg parents: diff changeset	258 # Keep track of statistics for the output file
507521bf124a Uploaded greg parents: diff changeset	259 statistics = {}
507521bf124a Uploaded greg parents: diff changeset	260 input = csv.reader(open(dataset_path, 'rt'), delimiter='\t')
507521bf124a Uploaded greg parents: diff changeset	261 fpath, fname = os.path.split(dataset_path)
507521bf124a Uploaded greg parents: diff changeset	262 statistics['fname'] = '%s: data %s' % (method, str(galaxy_hid))
507521bf124a Uploaded greg parents: diff changeset	263 statistics['dir'] = fpath
507521bf124a Uploaded greg parents: diff changeset	264 if threshold >= 1:
507521bf124a Uploaded greg parents: diff changeset	265 filter_string = 'fa%d' % threshold
507521bf124a Uploaded greg parents: diff changeset	266 else:
507521bf124a Uploaded greg parents: diff changeset	267 filter_string = 'f%d' % (threshold * 100)
507521bf124a Uploaded greg parents: diff changeset	268 fname = 'data_%s_%su%dd%db%d' % (galaxy_hid, filter_string, up_distance, down_distance, binsize)
507521bf124a Uploaded greg parents: diff changeset	269
507521bf124a Uploaded greg parents: diff changeset	270 def make_path(output_type, extension=TABULAR_EXT):
507521bf124a Uploaded greg parents: diff changeset	271 # Returns the full path for a certain output.
507521bf124a Uploaded greg parents: diff changeset	272 return os.path.join(output_type, '%s_%s.%s' % (output_type, fname, extension))
507521bf124a Uploaded greg parents: diff changeset	273
507521bf124a Uploaded greg parents: diff changeset	274 def td_writer(output_type, extension=TABULAR_EXT):
507521bf124a Uploaded greg parents: diff changeset	275 # Returns a tab-delimited writer for a specified output.
507521bf124a Uploaded greg parents: diff changeset	276 output_file_path = make_path(output_type, extension)
507521bf124a Uploaded greg parents: diff changeset	277 return csv.writer(open(output_file_path, 'wt'), delimiter='\t')
507521bf124a Uploaded greg parents: diff changeset	278
507521bf124a Uploaded greg parents: diff changeset	279 try:
507521bf124a Uploaded greg parents: diff changeset	280 chromosomes = parse_chromosomes(input)
507521bf124a Uploaded greg parents: diff changeset	281 except Exception:
507521bf124a Uploaded greg parents: diff changeset	282 stop_err('Unable to parse file "%s".\n%s' % (dataset_path, traceback.format_exc()))
507521bf124a Uploaded greg parents: diff changeset	283 if output_details:
507521bf124a Uploaded greg parents: diff changeset	284 # Details
507521bf124a Uploaded greg parents: diff changeset	285 detailed_output = td_writer('%s_%s' % (method, DETAILS), extension=TABULAR_EXT)
507521bf124a Uploaded greg parents: diff changeset	286 detailed_output.writerow(('chrom', 'start', 'end', 'value', 'strand') * 2 + ('midpoint', 'c-w reads sum', 'c-w distance (bp)'))
507521bf124a Uploaded greg parents: diff changeset	287 if output_plots:
507521bf124a Uploaded greg parents: diff changeset	288 # Final Plot
507521bf124a Uploaded greg parents: diff changeset	289 final_plot_path = make_path('%s_%s' % (method, FINAL_PLOTS), plot_format)
507521bf124a Uploaded greg parents: diff changeset	290 if output_orphans:
507521bf124a Uploaded greg parents: diff changeset	291 # Orphans
507521bf124a Uploaded greg parents: diff changeset	292 orphan_output = td_writer('%s_%s' % (method, ORPHANS), extension=TABULAR_EXT)
507521bf124a Uploaded greg parents: diff changeset	293 orphan_output.writerow(('chrom', 'strand', 'start', 'end', 'value'))
507521bf124a Uploaded greg parents: diff changeset	294 if output_plots:
507521bf124a Uploaded greg parents: diff changeset	295 # Preview Plot
507521bf124a Uploaded greg parents: diff changeset	296 preview_plot_path = make_path('%s_%s' % (method, PREVIEW_PLOTS), plot_format)
507521bf124a Uploaded greg parents: diff changeset	297 # Simple
507521bf124a Uploaded greg parents: diff changeset	298 simple_output = td_writer('%s_%s' % (method, SIMPLES), extension=GFF_EXT)
507521bf124a Uploaded greg parents: diff changeset	299 statistics['stats_path'] = 'statistics.%s' % TABULAR_EXT
507521bf124a Uploaded greg parents: diff changeset	300 if output_plots:
507521bf124a Uploaded greg parents: diff changeset	301 statistics['graph_path'] = make_path('%s_%s' % (method, STATS_GRAPH), plot_format)
507521bf124a Uploaded greg parents: diff changeset	302 statistics['perc95'] = perc95(chromosomes)
507521bf124a Uploaded greg parents: diff changeset	303 if threshold > 0:
507521bf124a Uploaded greg parents: diff changeset	304 # Apply filter
507521bf124a Uploaded greg parents: diff changeset	305 filter(chromosomes, threshold)
507521bf124a Uploaded greg parents: diff changeset	306 if method == 'mode':
507521bf124a Uploaded greg parents: diff changeset	307 freq = all_pair_distribution(chromosomes, up_distance, down_distance, binsize)
507521bf124a Uploaded greg parents: diff changeset	308 mode = freq.mode()
507521bf124a Uploaded greg parents: diff changeset	309 statistics['preview_mode'] = mode
507521bf124a Uploaded greg parents: diff changeset	310 if output_plots:
507521bf124a Uploaded greg parents: diff changeset	311 frequency_plot([freq], preview_plot_path, title='Preview frequency plot')
507521bf124a Uploaded greg parents: diff changeset	312 else:
507521bf124a Uploaded greg parents: diff changeset	313 statistics['preview_mode'] = 'NA'
507521bf124a Uploaded greg parents: diff changeset	314 dist = FrequencyDistribution(-up_distance, down_distance, binsize=binsize)
507521bf124a Uploaded greg parents: diff changeset	315 orphans = 0
507521bf124a Uploaded greg parents: diff changeset	316 # x will be used to archive the summary dataset
507521bf124a Uploaded greg parents: diff changeset	317 x = []
507521bf124a Uploaded greg parents: diff changeset	318 for cname, chromosome in chromosomes.items():
507521bf124a Uploaded greg parents: diff changeset	319 # Each peak is (strand, start, end, value)
507521bf124a Uploaded greg parents: diff changeset	320 watson, crick = split_strands(chromosome)
507521bf124a Uploaded greg parents: diff changeset	321 # Sort by value of each peak
507521bf124a Uploaded greg parents: diff changeset	322 watson.sort(key=lambda data: -float(data[3]))
507521bf124a Uploaded greg parents: diff changeset	323 # Sort by position to facilitate binary search
507521bf124a Uploaded greg parents: diff changeset	324 crick.sort(key=lambda data: float(data[1]))
507521bf124a Uploaded greg parents: diff changeset	325 keys = make_keys(crick)
507521bf124a Uploaded greg parents: diff changeset	326 for peak in watson:
507521bf124a Uploaded greg parents: diff changeset	327 window = get_window(crick, peak, up_distance, down_distance, keys)
507521bf124a Uploaded greg parents: diff changeset	328 if method == 'mode':
507521bf124a Uploaded greg parents: diff changeset	329 match = match_mode(window, peak, mode)
507521bf124a Uploaded greg parents: diff changeset	330 else:
507521bf124a Uploaded greg parents: diff changeset	331 match = METHODS[method](window, peak)
507521bf124a Uploaded greg parents: diff changeset	332 if match:
507521bf124a Uploaded greg parents: diff changeset	333 midpoint = (match[1] + match[2] + peak[1] + peak[2]) // 4
507521bf124a Uploaded greg parents: diff changeset	334 d = distance(peak, match)
507521bf124a Uploaded greg parents: diff changeset	335 dist.add(d)
507521bf124a Uploaded greg parents: diff changeset	336 # Simple output in gff format.
507521bf124a Uploaded greg parents: diff changeset	337 x.append(gff_row(cname,
507521bf124a Uploaded greg parents: diff changeset	338 source='cwpair',
507521bf124a Uploaded greg parents: diff changeset	339 start=midpoint,
507521bf124a Uploaded greg parents: diff changeset	340 end=midpoint + 1,
507521bf124a Uploaded greg parents: diff changeset	341 score=peak[3] + match[3],
507521bf124a Uploaded greg parents: diff changeset	342 attrs={'cw_distance': d}))
507521bf124a Uploaded greg parents: diff changeset	343 if output_details:
507521bf124a Uploaded greg parents: diff changeset	344 detailed_output.writerow((cname,
507521bf124a Uploaded greg parents: diff changeset	345 peak[1],
507521bf124a Uploaded greg parents: diff changeset	346 peak[2],
507521bf124a Uploaded greg parents: diff changeset	347 peak[3],
507521bf124a Uploaded greg parents: diff changeset	348 '+',
507521bf124a Uploaded greg parents: diff changeset	349 cname,
507521bf124a Uploaded greg parents: diff changeset	350 match[1],
507521bf124a Uploaded greg parents: diff changeset	351 match[2],
507521bf124a Uploaded greg parents: diff changeset	352 match[3], '-',
507521bf124a Uploaded greg parents: diff changeset	353 midpoint,
507521bf124a Uploaded greg parents: diff changeset	354 peak[3]+match[3],
507521bf124a Uploaded greg parents: diff changeset	355 d))
507521bf124a Uploaded greg parents: diff changeset	356 i = bisect.bisect_left(keys, (match[1]+match[2])/2)
507521bf124a Uploaded greg parents: diff changeset	357 del crick[i]
507521bf124a Uploaded greg parents: diff changeset	358 del keys[i]
507521bf124a Uploaded greg parents: diff changeset	359 else:
507521bf124a Uploaded greg parents: diff changeset	360 if output_orphans:
507521bf124a Uploaded greg parents: diff changeset	361 orphan_output.writerow((cname, peak[0], peak[1], peak[2], peak[3]))
507521bf124a Uploaded greg parents: diff changeset	362 # Keep track of orphans for statistics.
507521bf124a Uploaded greg parents: diff changeset	363 orphans += 1
507521bf124a Uploaded greg parents: diff changeset	364 # Remaining crick peaks are orphans
507521bf124a Uploaded greg parents: diff changeset	365 if output_orphans:
507521bf124a Uploaded greg parents: diff changeset	366 for cpeak in crick:
507521bf124a Uploaded greg parents: diff changeset	367 orphan_output.writerow((cname, cpeak[0], cpeak[1], cpeak[2], cpeak[3]))
507521bf124a Uploaded greg parents: diff changeset	368 # Keep track of orphans for statistics.
507521bf124a Uploaded greg parents: diff changeset	369 orphans += len(crick)
507521bf124a Uploaded greg parents: diff changeset	370 # Sort output by chromosome if specified.
507521bf124a Uploaded greg parents: diff changeset	371 if sort_chromosome == "asc":
507521bf124a Uploaded greg parents: diff changeset	372 try:
507521bf124a Uploaded greg parents: diff changeset	373 x.sort(key=lambda data: int(data[3]))
507521bf124a Uploaded greg parents: diff changeset	374 x.sort(key=lambda data: int(data[0]))
507521bf124a Uploaded greg parents: diff changeset	375 except:
507521bf124a Uploaded greg parents: diff changeset	376 # Cannot sort because chromosome number is not a numeric.
507521bf124a Uploaded greg parents: diff changeset	377 pass
507521bf124a Uploaded greg parents: diff changeset	378 elif sort_chromosome == "desc":
507521bf124a Uploaded greg parents: diff changeset	379 try:
507521bf124a Uploaded greg parents: diff changeset	380 x.sort(key=lambda data: int(data[0]), reverse=True)
507521bf124a Uploaded greg parents: diff changeset	381 x.sort(key=lambda data: int(data[3]), reverse=True)
507521bf124a Uploaded greg parents: diff changeset	382 except:
507521bf124a Uploaded greg parents: diff changeset	383 # Cannot sort because chromosome number is not a numeric.
507521bf124a Uploaded greg parents: diff changeset	384 pass
507521bf124a Uploaded greg parents: diff changeset	385 # Sort output by score if specified.
507521bf124a Uploaded greg parents: diff changeset	386 if sort_score == "desc":
507521bf124a Uploaded greg parents: diff changeset	387 x.sort(key=lambda data: float(data[5]), reverse=True)
507521bf124a Uploaded greg parents: diff changeset	388 elif sort_score == "asc":
507521bf124a Uploaded greg parents: diff changeset	389 x.sort(key=lambda data: float(data[5]))
507521bf124a Uploaded greg parents: diff changeset	390 # Writing a summary to txt or gff format file
507521bf124a Uploaded greg parents: diff changeset	391 for row in x:
507521bf124a Uploaded greg parents: diff changeset	392 row_tmp = list(row)
507521bf124a Uploaded greg parents: diff changeset	393 # Dataset in tuple cannot be modified in Python, so row will
507521bf124a Uploaded greg parents: diff changeset	394 # be converted to list format to add 'chr'.
507521bf124a Uploaded greg parents: diff changeset	395 if row_tmp[0] == "999":
507521bf124a Uploaded greg parents: diff changeset	396 row_tmp[0] = 'chrM'
507521bf124a Uploaded greg parents: diff changeset	397 elif row_tmp[0] == "998":
507521bf124a Uploaded greg parents: diff changeset	398 row_tmp[0] = 'chrY'
507521bf124a Uploaded greg parents: diff changeset	399 elif row_tmp[0] == "997":
507521bf124a Uploaded greg parents: diff changeset	400 row_tmp[0] = 'chrX'
507521bf124a Uploaded greg parents: diff changeset	401 else:
507521bf124a Uploaded greg parents: diff changeset	402 row_tmp[0] = row_tmp[0]
507521bf124a Uploaded greg parents: diff changeset	403 # Print row_tmp.
507521bf124a Uploaded greg parents: diff changeset	404 simple_output.writerow(row_tmp)
507521bf124a Uploaded greg parents: diff changeset	405 statistics['paired'] = dist.size() * 2
507521bf124a Uploaded greg parents: diff changeset	406 statistics['orphans'] = orphans
507521bf124a Uploaded greg parents: diff changeset	407 statistics['final_mode'] = dist.mode()
507521bf124a Uploaded greg parents: diff changeset	408 if output_plots:
507521bf124a Uploaded greg parents: diff changeset	409 frequency_plot([dist], final_plot_path, title='Frequency distribution')
507521bf124a Uploaded greg parents: diff changeset	410 statistics['dist'] = dist
507521bf124a Uploaded greg parents: diff changeset	411 return statistics

Mercurial > repos > greg > cwpair2

annotate cwpair2_util.py @ 1:4d86371aafa8 draft