repmatch_gff3: repmatch_gff3

annotate repmatch_gff3_util.py @ 3:94e374d13037 draft

Uploaded

author	greg
date	Tue, 17 Nov 2015 16:50:17 -0500
parents	d668b18696f4
children	53cbf79396d7

rev	line source
0 d33030c8e2cc Uploaded greg parents: diff changeset	1 import bisect
d33030c8e2cc Uploaded greg parents: diff changeset	2 import csv
d33030c8e2cc Uploaded greg parents: diff changeset	3 import os
d33030c8e2cc Uploaded greg parents: diff changeset	4 import shutil
d33030c8e2cc Uploaded greg parents: diff changeset	5 import sys
d33030c8e2cc Uploaded greg parents: diff changeset	6 import tempfile
1 8159aaa7da4b Uploaded greg parents: 0 diff changeset	7 import matplotlib
2 d668b18696f4 Uploaded greg parents: 1 diff changeset	8 matplotlib.use('Agg')
0 d33030c8e2cc Uploaded greg parents: diff changeset	9 from matplotlib import pyplot
d33030c8e2cc Uploaded greg parents: diff changeset	10
d33030c8e2cc Uploaded greg parents: diff changeset	11 # Graph settings
d33030c8e2cc Uploaded greg parents: diff changeset	12 Y_LABEL = 'Counts'
d33030c8e2cc Uploaded greg parents: diff changeset	13 X_LABEL = 'Number of matched replicates'
d33030c8e2cc Uploaded greg parents: diff changeset	14 TICK_WIDTH = 3
d33030c8e2cc Uploaded greg parents: diff changeset	15 # Amount to shift the graph to make labels fit, [left, right, top, bottom]
d33030c8e2cc Uploaded greg parents: diff changeset	16 ADJUST = [0.180, 0.9, 0.9, 0.1]
d33030c8e2cc Uploaded greg parents: diff changeset	17 # Length of tick marks, use TICK_WIDTH for width
d33030c8e2cc Uploaded greg parents: diff changeset	18 pyplot.rc('xtick.major', size=10.00)
d33030c8e2cc Uploaded greg parents: diff changeset	19 pyplot.rc('ytick.major', size=10.00)
d33030c8e2cc Uploaded greg parents: diff changeset	20 pyplot.rc('lines', linewidth=4.00)
d33030c8e2cc Uploaded greg parents: diff changeset	21 pyplot.rc('axes', linewidth=3.00)
3 94e374d13037 Uploaded greg parents: 2 diff changeset	22 pyplot.rc('font', family='Bitstream Vera Sans', size=32.0)
0 d33030c8e2cc Uploaded greg parents: diff changeset	23
d33030c8e2cc Uploaded greg parents: diff changeset	24 PLOT_FORMATS = ['png', 'pdf', 'svg']
d33030c8e2cc Uploaded greg parents: diff changeset	25 COLORS = 'krb'
d33030c8e2cc Uploaded greg parents: diff changeset	26
d33030c8e2cc Uploaded greg parents: diff changeset	27
d33030c8e2cc Uploaded greg parents: diff changeset	28 class Replicate(object):
d33030c8e2cc Uploaded greg parents: diff changeset	29
d33030c8e2cc Uploaded greg parents: diff changeset	30 def __init__(self, id, dataset_path):
d33030c8e2cc Uploaded greg parents: diff changeset	31 self.id = id
d33030c8e2cc Uploaded greg parents: diff changeset	32 self.dataset_path = dataset_path
d33030c8e2cc Uploaded greg parents: diff changeset	33 self.parse(csv.reader(open(dataset_path, 'rt'), delimiter='\t'))
d33030c8e2cc Uploaded greg parents: diff changeset	34
d33030c8e2cc Uploaded greg parents: diff changeset	35 def parse(self, reader):
d33030c8e2cc Uploaded greg parents: diff changeset	36 self.chromosomes = {}
d33030c8e2cc Uploaded greg parents: diff changeset	37 for line in reader:
d33030c8e2cc Uploaded greg parents: diff changeset	38 if line[0].startswith("#") or line[0].startswith('"'):
d33030c8e2cc Uploaded greg parents: diff changeset	39 continue
d33030c8e2cc Uploaded greg parents: diff changeset	40 cname, junk, junk, mid, midplus, value, strand, junk, attrs = line
d33030c8e2cc Uploaded greg parents: diff changeset	41 attrs = parse_gff_attrs(attrs)
d33030c8e2cc Uploaded greg parents: diff changeset	42 distance = attrs['cw_distance']
d33030c8e2cc Uploaded greg parents: diff changeset	43 mid = int(mid)
d33030c8e2cc Uploaded greg parents: diff changeset	44 midplus = int(midplus)
d33030c8e2cc Uploaded greg parents: diff changeset	45 value = float(value)
d33030c8e2cc Uploaded greg parents: diff changeset	46 distance = int(distance)
d33030c8e2cc Uploaded greg parents: diff changeset	47 if cname not in self.chromosomes:
d33030c8e2cc Uploaded greg parents: diff changeset	48 self.chromosomes[cname] = Chromosome(cname)
d33030c8e2cc Uploaded greg parents: diff changeset	49 chrom = self.chromosomes[cname]
d33030c8e2cc Uploaded greg parents: diff changeset	50 chrom.add_peak(Peak(cname, mid, value, distance, self))
d33030c8e2cc Uploaded greg parents: diff changeset	51 for chrom in self.chromosomes.values():
d33030c8e2cc Uploaded greg parents: diff changeset	52 chrom.sort_by_index()
d33030c8e2cc Uploaded greg parents: diff changeset	53
d33030c8e2cc Uploaded greg parents: diff changeset	54 def filter(self, up_limit, low_limit):
d33030c8e2cc Uploaded greg parents: diff changeset	55 for chrom in self.chromosomes.values():
d33030c8e2cc Uploaded greg parents: diff changeset	56 chrom.filter(up_limit, low_limit)
d33030c8e2cc Uploaded greg parents: diff changeset	57
d33030c8e2cc Uploaded greg parents: diff changeset	58 def size(self):
d33030c8e2cc Uploaded greg parents: diff changeset	59 return sum([len(c.peaks) for c in self.chromosomes.values()])
d33030c8e2cc Uploaded greg parents: diff changeset	60
d33030c8e2cc Uploaded greg parents: diff changeset	61
d33030c8e2cc Uploaded greg parents: diff changeset	62 class Chromosome(object):
d33030c8e2cc Uploaded greg parents: diff changeset	63
d33030c8e2cc Uploaded greg parents: diff changeset	64 def __init__(self, name):
d33030c8e2cc Uploaded greg parents: diff changeset	65 self.name = name
d33030c8e2cc Uploaded greg parents: diff changeset	66 self.peaks = []
d33030c8e2cc Uploaded greg parents: diff changeset	67
d33030c8e2cc Uploaded greg parents: diff changeset	68 def add_peak(self, peak):
d33030c8e2cc Uploaded greg parents: diff changeset	69 self.peaks.append(peak)
d33030c8e2cc Uploaded greg parents: diff changeset	70
d33030c8e2cc Uploaded greg parents: diff changeset	71 def sort_by_index(self):
d33030c8e2cc Uploaded greg parents: diff changeset	72 self.peaks.sort(key=lambda peak: peak.midpoint)
d33030c8e2cc Uploaded greg parents: diff changeset	73 self.keys = make_keys(self.peaks)
d33030c8e2cc Uploaded greg parents: diff changeset	74
d33030c8e2cc Uploaded greg parents: diff changeset	75 def remove_peak(self, peak):
d33030c8e2cc Uploaded greg parents: diff changeset	76 i = bisect.bisect_left(self.keys, peak.midpoint)
d33030c8e2cc Uploaded greg parents: diff changeset	77 # If the peak was actually found
d33030c8e2cc Uploaded greg parents: diff changeset	78 if i < len(self.peaks) and self.peaks[i].midpoint == peak.midpoint:
d33030c8e2cc Uploaded greg parents: diff changeset	79 del self.keys[i]
d33030c8e2cc Uploaded greg parents: diff changeset	80 del self.peaks[i]
d33030c8e2cc Uploaded greg parents: diff changeset	81
d33030c8e2cc Uploaded greg parents: diff changeset	82 def filter(self, up_limit, low_limit):
d33030c8e2cc Uploaded greg parents: diff changeset	83 self.peaks = [p for p in self.peaks if low_limit <= p.distance <= up_limit]
d33030c8e2cc Uploaded greg parents: diff changeset	84 self.keys = make_keys(self.peaks)
d33030c8e2cc Uploaded greg parents: diff changeset	85
d33030c8e2cc Uploaded greg parents: diff changeset	86
d33030c8e2cc Uploaded greg parents: diff changeset	87 class Peak(object):
d33030c8e2cc Uploaded greg parents: diff changeset	88
d33030c8e2cc Uploaded greg parents: diff changeset	89 def __init__(self, chrom, midpoint, value, distance, replicate):
d33030c8e2cc Uploaded greg parents: diff changeset	90 self.chrom = chrom
d33030c8e2cc Uploaded greg parents: diff changeset	91 self.value = value
d33030c8e2cc Uploaded greg parents: diff changeset	92 self.midpoint = midpoint
d33030c8e2cc Uploaded greg parents: diff changeset	93 self.distance = distance
d33030c8e2cc Uploaded greg parents: diff changeset	94 self.replicate = replicate
d33030c8e2cc Uploaded greg parents: diff changeset	95
d33030c8e2cc Uploaded greg parents: diff changeset	96 def normalized_value(self, med):
d33030c8e2cc Uploaded greg parents: diff changeset	97 return self.value * med / self.replicate.median
d33030c8e2cc Uploaded greg parents: diff changeset	98
d33030c8e2cc Uploaded greg parents: diff changeset	99
d33030c8e2cc Uploaded greg parents: diff changeset	100 class PeakGroup(object):
d33030c8e2cc Uploaded greg parents: diff changeset	101
d33030c8e2cc Uploaded greg parents: diff changeset	102 def __init__(self):
d33030c8e2cc Uploaded greg parents: diff changeset	103 self.peaks = {}
d33030c8e2cc Uploaded greg parents: diff changeset	104
d33030c8e2cc Uploaded greg parents: diff changeset	105 def add_peak(self, repid, peak):
d33030c8e2cc Uploaded greg parents: diff changeset	106 self.peaks[repid] = peak
d33030c8e2cc Uploaded greg parents: diff changeset	107
d33030c8e2cc Uploaded greg parents: diff changeset	108 @property
d33030c8e2cc Uploaded greg parents: diff changeset	109 def chrom(self):
d33030c8e2cc Uploaded greg parents: diff changeset	110 return self.peaks.values()[0].chrom
d33030c8e2cc Uploaded greg parents: diff changeset	111
d33030c8e2cc Uploaded greg parents: diff changeset	112 @property
d33030c8e2cc Uploaded greg parents: diff changeset	113 def midpoint(self):
d33030c8e2cc Uploaded greg parents: diff changeset	114 return median([peak.midpoint for peak in self.peaks.values()])
d33030c8e2cc Uploaded greg parents: diff changeset	115
d33030c8e2cc Uploaded greg parents: diff changeset	116 @property
d33030c8e2cc Uploaded greg parents: diff changeset	117 def num_replicates(self):
d33030c8e2cc Uploaded greg parents: diff changeset	118 return len(self.peaks)
d33030c8e2cc Uploaded greg parents: diff changeset	119
d33030c8e2cc Uploaded greg parents: diff changeset	120 @property
d33030c8e2cc Uploaded greg parents: diff changeset	121 def median_distance(self):
d33030c8e2cc Uploaded greg parents: diff changeset	122 return median([peak.distance for peak in self.peaks.values()])
d33030c8e2cc Uploaded greg parents: diff changeset	123
d33030c8e2cc Uploaded greg parents: diff changeset	124 @property
d33030c8e2cc Uploaded greg parents: diff changeset	125 def value_sum(self):
d33030c8e2cc Uploaded greg parents: diff changeset	126 return sum([peak.value for peak in self.peaks.values()])
d33030c8e2cc Uploaded greg parents: diff changeset	127
d33030c8e2cc Uploaded greg parents: diff changeset	128 def normalized_value(self, med):
d33030c8e2cc Uploaded greg parents: diff changeset	129 values = []
d33030c8e2cc Uploaded greg parents: diff changeset	130 for peak in self.peaks.values():
d33030c8e2cc Uploaded greg parents: diff changeset	131 values.append(peak.normalized_value(med))
d33030c8e2cc Uploaded greg parents: diff changeset	132 return median(values)
d33030c8e2cc Uploaded greg parents: diff changeset	133
d33030c8e2cc Uploaded greg parents: diff changeset	134 @property
d33030c8e2cc Uploaded greg parents: diff changeset	135 def peakpeak_distance(self):
d33030c8e2cc Uploaded greg parents: diff changeset	136 keys = self.peaks.keys()
d33030c8e2cc Uploaded greg parents: diff changeset	137 return abs(self.peaks[keys[0]].midpoint - self.peaks[keys[1]].midpoint)
d33030c8e2cc Uploaded greg parents: diff changeset	138
d33030c8e2cc Uploaded greg parents: diff changeset	139
d33030c8e2cc Uploaded greg parents: diff changeset	140 class FrequencyDistribution(object):
d33030c8e2cc Uploaded greg parents: diff changeset	141
d33030c8e2cc Uploaded greg parents: diff changeset	142 def __init__(self, d=None):
d33030c8e2cc Uploaded greg parents: diff changeset	143 self.dist = d or {}
d33030c8e2cc Uploaded greg parents: diff changeset	144
d33030c8e2cc Uploaded greg parents: diff changeset	145 def add(self, x):
d33030c8e2cc Uploaded greg parents: diff changeset	146 self.dist[x] = self.dist.get(x, 0) + 1
d33030c8e2cc Uploaded greg parents: diff changeset	147
d33030c8e2cc Uploaded greg parents: diff changeset	148 def graph_series(self):
d33030c8e2cc Uploaded greg parents: diff changeset	149 x = []
d33030c8e2cc Uploaded greg parents: diff changeset	150 y = []
d33030c8e2cc Uploaded greg parents: diff changeset	151 for key, val in self.dist.items():
d33030c8e2cc Uploaded greg parents: diff changeset	152 x.append(key)
d33030c8e2cc Uploaded greg parents: diff changeset	153 y.append(val)
d33030c8e2cc Uploaded greg parents: diff changeset	154 return x, y
d33030c8e2cc Uploaded greg parents: diff changeset	155
d33030c8e2cc Uploaded greg parents: diff changeset	156 def mode(self):
d33030c8e2cc Uploaded greg parents: diff changeset	157 return max(self.dist.items(), key=lambda data: data[1])[0]
d33030c8e2cc Uploaded greg parents: diff changeset	158
d33030c8e2cc Uploaded greg parents: diff changeset	159 def size(self):
d33030c8e2cc Uploaded greg parents: diff changeset	160 return sum(self.dist.values())
d33030c8e2cc Uploaded greg parents: diff changeset	161
d33030c8e2cc Uploaded greg parents: diff changeset	162
d33030c8e2cc Uploaded greg parents: diff changeset	163 def stop_err(msg):
d33030c8e2cc Uploaded greg parents: diff changeset	164 sys.stderr.write(msg)
d33030c8e2cc Uploaded greg parents: diff changeset	165 sys.exit(1)
d33030c8e2cc Uploaded greg parents: diff changeset	166
d33030c8e2cc Uploaded greg parents: diff changeset	167
d33030c8e2cc Uploaded greg parents: diff changeset	168 def median(data):
d33030c8e2cc Uploaded greg parents: diff changeset	169 """
d33030c8e2cc Uploaded greg parents: diff changeset	170 Find the integer median of the data set.
d33030c8e2cc Uploaded greg parents: diff changeset	171 """
d33030c8e2cc Uploaded greg parents: diff changeset	172 if not data:
d33030c8e2cc Uploaded greg parents: diff changeset	173 return 0
d33030c8e2cc Uploaded greg parents: diff changeset	174 sdata = sorted(data)
d33030c8e2cc Uploaded greg parents: diff changeset	175 if len(data) % 2 == 0:
d33030c8e2cc Uploaded greg parents: diff changeset	176 return (sdata[len(data)//2] + sdata[len(data)//2-1]) / 2
d33030c8e2cc Uploaded greg parents: diff changeset	177 else:
d33030c8e2cc Uploaded greg parents: diff changeset	178 return sdata[len(data)//2]
d33030c8e2cc Uploaded greg parents: diff changeset	179
d33030c8e2cc Uploaded greg parents: diff changeset	180
d33030c8e2cc Uploaded greg parents: diff changeset	181 def make_keys(peaks):
d33030c8e2cc Uploaded greg parents: diff changeset	182 return [data.midpoint for data in peaks]
d33030c8e2cc Uploaded greg parents: diff changeset	183
d33030c8e2cc Uploaded greg parents: diff changeset	184
d33030c8e2cc Uploaded greg parents: diff changeset	185 def get_window(chromosome, target_peaks, distance):
d33030c8e2cc Uploaded greg parents: diff changeset	186 """
d33030c8e2cc Uploaded greg parents: diff changeset	187 Returns a window of all peaks from a replicate within a certain distance of
d33030c8e2cc Uploaded greg parents: diff changeset	188 a peak from another replicate.
d33030c8e2cc Uploaded greg parents: diff changeset	189 """
d33030c8e2cc Uploaded greg parents: diff changeset	190 lower = target_peaks[0].midpoint
d33030c8e2cc Uploaded greg parents: diff changeset	191 upper = target_peaks[0].midpoint
d33030c8e2cc Uploaded greg parents: diff changeset	192 for peak in target_peaks:
d33030c8e2cc Uploaded greg parents: diff changeset	193 lower = min(lower, peak.midpoint - distance)
d33030c8e2cc Uploaded greg parents: diff changeset	194 upper = max(upper, peak.midpoint + distance)
d33030c8e2cc Uploaded greg parents: diff changeset	195 start_index = bisect.bisect_left(chromosome.keys, lower)
d33030c8e2cc Uploaded greg parents: diff changeset	196 end_index = bisect.bisect_right(chromosome.keys, upper)
d33030c8e2cc Uploaded greg parents: diff changeset	197 return (chromosome.peaks[start_index: end_index], chromosome.name)
d33030c8e2cc Uploaded greg parents: diff changeset	198
d33030c8e2cc Uploaded greg parents: diff changeset	199
d33030c8e2cc Uploaded greg parents: diff changeset	200 def match_largest(window, peak, chrum):
d33030c8e2cc Uploaded greg parents: diff changeset	201 if not window:
d33030c8e2cc Uploaded greg parents: diff changeset	202 return None
d33030c8e2cc Uploaded greg parents: diff changeset	203 if peak.chrom != chrum:
d33030c8e2cc Uploaded greg parents: diff changeset	204 return None
d33030c8e2cc Uploaded greg parents: diff changeset	205 return max(window, key=lambda cpeak: cpeak.value)
d33030c8e2cc Uploaded greg parents: diff changeset	206
d33030c8e2cc Uploaded greg parents: diff changeset	207
d33030c8e2cc Uploaded greg parents: diff changeset	208 def match_closest(window, peak, chrum):
d33030c8e2cc Uploaded greg parents: diff changeset	209 if not window:
d33030c8e2cc Uploaded greg parents: diff changeset	210 return None
d33030c8e2cc Uploaded greg parents: diff changeset	211 if peak.chrom != chrum:
d33030c8e2cc Uploaded greg parents: diff changeset	212 return None
d33030c8e2cc Uploaded greg parents: diff changeset	213 return min(window, key=lambda match: abs(match.midpoint - peak.midpoint))
d33030c8e2cc Uploaded greg parents: diff changeset	214
d33030c8e2cc Uploaded greg parents: diff changeset	215
d33030c8e2cc Uploaded greg parents: diff changeset	216 def frequency_histogram(freqs, dataset_path, labels=[], title=''):
d33030c8e2cc Uploaded greg parents: diff changeset	217 pyplot.clf()
d33030c8e2cc Uploaded greg parents: diff changeset	218 pyplot.figure(figsize=(10, 10))
d33030c8e2cc Uploaded greg parents: diff changeset	219 for i, freq in enumerate(freqs):
d33030c8e2cc Uploaded greg parents: diff changeset	220 xvals, yvals = freq.graph_series()
d33030c8e2cc Uploaded greg parents: diff changeset	221 # Go from high to low
d33030c8e2cc Uploaded greg parents: diff changeset	222 xvals.reverse()
d33030c8e2cc Uploaded greg parents: diff changeset	223 pyplot.bar([x-0.4 + 0.8/len(freqs)*i for x in xvals], yvals, width=0.8/len(freqs), color=COLORS[i])
d33030c8e2cc Uploaded greg parents: diff changeset	224 pyplot.xticks(range(min(xvals), max(xvals)+1), map(str, reversed(range(min(xvals), max(xvals)+1))))
d33030c8e2cc Uploaded greg parents: diff changeset	225 pyplot.xlabel(X_LABEL)
d33030c8e2cc Uploaded greg parents: diff changeset	226 pyplot.ylabel(Y_LABEL)
d33030c8e2cc Uploaded greg parents: diff changeset	227 pyplot.subplots_adjust(left=ADJUST[0], right=ADJUST[1], top=ADJUST[2], bottom=ADJUST[3])
d33030c8e2cc Uploaded greg parents: diff changeset	228 ax = pyplot.gca()
d33030c8e2cc Uploaded greg parents: diff changeset	229 for l in ax.get_xticklines() + ax.get_yticklines():
d33030c8e2cc Uploaded greg parents: diff changeset	230 l.set_markeredgewidth(TICK_WIDTH)
d33030c8e2cc Uploaded greg parents: diff changeset	231 pyplot.savefig(dataset_path)
d33030c8e2cc Uploaded greg parents: diff changeset	232
d33030c8e2cc Uploaded greg parents: diff changeset	233
d33030c8e2cc Uploaded greg parents: diff changeset	234 METHODS = {'closest': match_closest, 'largest': match_largest}
d33030c8e2cc Uploaded greg parents: diff changeset	235
d33030c8e2cc Uploaded greg parents: diff changeset	236
d33030c8e2cc Uploaded greg parents: diff changeset	237 def gff_attrs(d):
d33030c8e2cc Uploaded greg parents: diff changeset	238 if not d:
d33030c8e2cc Uploaded greg parents: diff changeset	239 return '.'
d33030c8e2cc Uploaded greg parents: diff changeset	240 return ';'.join('%s=%s' % item for item in d.items())
d33030c8e2cc Uploaded greg parents: diff changeset	241
d33030c8e2cc Uploaded greg parents: diff changeset	242
d33030c8e2cc Uploaded greg parents: diff changeset	243 def parse_gff_attrs(s):
d33030c8e2cc Uploaded greg parents: diff changeset	244 d = {}
d33030c8e2cc Uploaded greg parents: diff changeset	245 if s == '.':
d33030c8e2cc Uploaded greg parents: diff changeset	246 return d
d33030c8e2cc Uploaded greg parents: diff changeset	247 for item in s.split(';'):
d33030c8e2cc Uploaded greg parents: diff changeset	248 key, val = item.split('=')
d33030c8e2cc Uploaded greg parents: diff changeset	249 d[key] = val
d33030c8e2cc Uploaded greg parents: diff changeset	250 return d
d33030c8e2cc Uploaded greg parents: diff changeset	251
d33030c8e2cc Uploaded greg parents: diff changeset	252
d33030c8e2cc Uploaded greg parents: diff changeset	253 def gff_row(cname, start, end, score, source, type='.', strand='.', phase='.', attrs={}):
d33030c8e2cc Uploaded greg parents: diff changeset	254 return (cname, source, type, start, end, score, strand, phase, gff_attrs(attrs))
d33030c8e2cc Uploaded greg parents: diff changeset	255
d33030c8e2cc Uploaded greg parents: diff changeset	256
d33030c8e2cc Uploaded greg parents: diff changeset	257 def get_temporary_plot_path(plot_format):
d33030c8e2cc Uploaded greg parents: diff changeset	258 """
d33030c8e2cc Uploaded greg parents: diff changeset	259 Return the path to a temporary file with a valid image format
d33030c8e2cc Uploaded greg parents: diff changeset	260 file extension that can be used with bioformats.
d33030c8e2cc Uploaded greg parents: diff changeset	261 """
d33030c8e2cc Uploaded greg parents: diff changeset	262 tmp_dir = tempfile.mkdtemp(prefix='tmp-repmatch-')
d33030c8e2cc Uploaded greg parents: diff changeset	263 fd, name = tempfile.mkstemp(suffix='.%s' % plot_format, dir=tmp_dir)
d33030c8e2cc Uploaded greg parents: diff changeset	264 os.close(fd)
d33030c8e2cc Uploaded greg parents: diff changeset	265 return name
d33030c8e2cc Uploaded greg parents: diff changeset	266
d33030c8e2cc Uploaded greg parents: diff changeset	267
d33030c8e2cc Uploaded greg parents: diff changeset	268 def process_files(dataset_paths, galaxy_hids, method, distance, step, replicates, up_limit, low_limit, output_files,
d33030c8e2cc Uploaded greg parents: diff changeset	269 plot_format, output_summary, output_orphan, output_detail, output_key, output_histogram):
d33030c8e2cc Uploaded greg parents: diff changeset	270 output_histogram_file = output_files in ["all"] and method in ["all"]
d33030c8e2cc Uploaded greg parents: diff changeset	271 if len(dataset_paths) < 2:
d33030c8e2cc Uploaded greg parents: diff changeset	272 return
d33030c8e2cc Uploaded greg parents: diff changeset	273 if method == 'all':
d33030c8e2cc Uploaded greg parents: diff changeset	274 match_methods = METHODS.keys()
d33030c8e2cc Uploaded greg parents: diff changeset	275 else:
d33030c8e2cc Uploaded greg parents: diff changeset	276 match_methods = [method]
d33030c8e2cc Uploaded greg parents: diff changeset	277 for match_method in match_methods:
d33030c8e2cc Uploaded greg parents: diff changeset	278 statistics = perform_process(dataset_paths,
d33030c8e2cc Uploaded greg parents: diff changeset	279 galaxy_hids,
d33030c8e2cc Uploaded greg parents: diff changeset	280 match_method,
d33030c8e2cc Uploaded greg parents: diff changeset	281 distance,
d33030c8e2cc Uploaded greg parents: diff changeset	282 step,
d33030c8e2cc Uploaded greg parents: diff changeset	283 replicates,
d33030c8e2cc Uploaded greg parents: diff changeset	284 up_limit,
d33030c8e2cc Uploaded greg parents: diff changeset	285 low_limit,
d33030c8e2cc Uploaded greg parents: diff changeset	286 output_files,
d33030c8e2cc Uploaded greg parents: diff changeset	287 plot_format,
d33030c8e2cc Uploaded greg parents: diff changeset	288 output_summary,
d33030c8e2cc Uploaded greg parents: diff changeset	289 output_orphan,
d33030c8e2cc Uploaded greg parents: diff changeset	290 output_detail,
d33030c8e2cc Uploaded greg parents: diff changeset	291 output_key,
d33030c8e2cc Uploaded greg parents: diff changeset	292 output_histogram)
d33030c8e2cc Uploaded greg parents: diff changeset	293 if output_histogram_file:
d33030c8e2cc Uploaded greg parents: diff changeset	294 tmp_histogram_path = get_temporary_plot_path(plot_format)
d33030c8e2cc Uploaded greg parents: diff changeset	295 frequency_histogram([stat['distribution'] for stat in [statistics]],
d33030c8e2cc Uploaded greg parents: diff changeset	296 tmp_histogram_path,
d33030c8e2cc Uploaded greg parents: diff changeset	297 METHODS.keys())
d33030c8e2cc Uploaded greg parents: diff changeset	298 shutil.move(tmp_histogram_path, output_histogram)
d33030c8e2cc Uploaded greg parents: diff changeset	299
d33030c8e2cc Uploaded greg parents: diff changeset	300
d33030c8e2cc Uploaded greg parents: diff changeset	301 def perform_process(dataset_paths, galaxy_hids, method, distance, step, num_required, up_limit, low_limit, output_files,
d33030c8e2cc Uploaded greg parents: diff changeset	302 plot_format, output_summary, output_orphan, output_detail, output_key, output_histogram):
d33030c8e2cc Uploaded greg parents: diff changeset	303 output_detail_file = output_files in ["all"] and output_detail is not None
d33030c8e2cc Uploaded greg parents: diff changeset	304 output_key_file = output_files in ["all"] and output_key is not None
d33030c8e2cc Uploaded greg parents: diff changeset	305 output_orphan_file = output_files in ["all", "simple_orphan"] and output_orphan is not None
d33030c8e2cc Uploaded greg parents: diff changeset	306 output_histogram_file = output_files in ["all"] and output_histogram is not None
d33030c8e2cc Uploaded greg parents: diff changeset	307 replicates = []
d33030c8e2cc Uploaded greg parents: diff changeset	308 for i, dataset_path in enumerate(dataset_paths):
d33030c8e2cc Uploaded greg parents: diff changeset	309 try:
d33030c8e2cc Uploaded greg parents: diff changeset	310 galaxy_hid = galaxy_hids[i]
d33030c8e2cc Uploaded greg parents: diff changeset	311 r = Replicate(galaxy_hid, dataset_path)
d33030c8e2cc Uploaded greg parents: diff changeset	312 replicates.append(r)
d33030c8e2cc Uploaded greg parents: diff changeset	313 except Exception, e:
d33030c8e2cc Uploaded greg parents: diff changeset	314 stop_err('Unable to parse file "%s", exception: %s' % (dataset_path, str(e)))
d33030c8e2cc Uploaded greg parents: diff changeset	315 attrs = 'd%sr%s' % (distance, num_required)
d33030c8e2cc Uploaded greg parents: diff changeset	316 if up_limit != 1000:
d33030c8e2cc Uploaded greg parents: diff changeset	317 attrs += 'u%d' % up_limit
d33030c8e2cc Uploaded greg parents: diff changeset	318 if low_limit != -1000:
d33030c8e2cc Uploaded greg parents: diff changeset	319 attrs += 'l%d' % low_limit
d33030c8e2cc Uploaded greg parents: diff changeset	320 if step != 0:
d33030c8e2cc Uploaded greg parents: diff changeset	321 attrs += 's%d' % step
d33030c8e2cc Uploaded greg parents: diff changeset	322
d33030c8e2cc Uploaded greg parents: diff changeset	323 def td_writer(file_path):
d33030c8e2cc Uploaded greg parents: diff changeset	324 # Returns a tab-delimited writer for a certain output
d33030c8e2cc Uploaded greg parents: diff changeset	325 return csv.writer(open(file_path, 'wt'), delimiter='\t')
d33030c8e2cc Uploaded greg parents: diff changeset	326
d33030c8e2cc Uploaded greg parents: diff changeset	327 labels = ('chrom',
d33030c8e2cc Uploaded greg parents: diff changeset	328 'median midpoint',
d33030c8e2cc Uploaded greg parents: diff changeset	329 'median midpoint+1',
d33030c8e2cc Uploaded greg parents: diff changeset	330 'median normalized reads',
d33030c8e2cc Uploaded greg parents: diff changeset	331 'replicates',
d33030c8e2cc Uploaded greg parents: diff changeset	332 'median c-w distance',
d33030c8e2cc Uploaded greg parents: diff changeset	333 'reads sum')
d33030c8e2cc Uploaded greg parents: diff changeset	334 for replicate in replicates:
d33030c8e2cc Uploaded greg parents: diff changeset	335 labels += ('chrom',
d33030c8e2cc Uploaded greg parents: diff changeset	336 'median midpoint',
d33030c8e2cc Uploaded greg parents: diff changeset	337 'median midpoint+1',
d33030c8e2cc Uploaded greg parents: diff changeset	338 'c-w sum',
d33030c8e2cc Uploaded greg parents: diff changeset	339 'c-w distance',
d33030c8e2cc Uploaded greg parents: diff changeset	340 'replicate id')
d33030c8e2cc Uploaded greg parents: diff changeset	341 summary_output = td_writer(output_summary)
d33030c8e2cc Uploaded greg parents: diff changeset	342 if output_key_file:
d33030c8e2cc Uploaded greg parents: diff changeset	343 key_output = td_writer(output_key)
d33030c8e2cc Uploaded greg parents: diff changeset	344 key_output.writerow(('data', 'median read count'))
d33030c8e2cc Uploaded greg parents: diff changeset	345 if output_detail_file:
d33030c8e2cc Uploaded greg parents: diff changeset	346 detail_output = td_writer(output_detail)
d33030c8e2cc Uploaded greg parents: diff changeset	347 detail_output.writerow(labels)
d33030c8e2cc Uploaded greg parents: diff changeset	348 if output_orphan_file:
d33030c8e2cc Uploaded greg parents: diff changeset	349 orphan_output = td_writer(output_orphan)
d33030c8e2cc Uploaded greg parents: diff changeset	350 orphan_output.writerow(('chrom', 'midpoint', 'midpoint+1', 'c-w sum', 'c-w distance', 'replicate id'))
d33030c8e2cc Uploaded greg parents: diff changeset	351 # Perform filtering
d33030c8e2cc Uploaded greg parents: diff changeset	352 if up_limit < 1000 or low_limit > -1000:
d33030c8e2cc Uploaded greg parents: diff changeset	353 for replicate in replicates:
d33030c8e2cc Uploaded greg parents: diff changeset	354 replicate.filter(up_limit, low_limit)
d33030c8e2cc Uploaded greg parents: diff changeset	355 # Actually merge the peaks
d33030c8e2cc Uploaded greg parents: diff changeset	356 peak_groups = []
d33030c8e2cc Uploaded greg parents: diff changeset	357 orphans = []
d33030c8e2cc Uploaded greg parents: diff changeset	358 freq = FrequencyDistribution()
d33030c8e2cc Uploaded greg parents: diff changeset	359
d33030c8e2cc Uploaded greg parents: diff changeset	360 def do_match(reps, distance):
d33030c8e2cc Uploaded greg parents: diff changeset	361 # Copy list because we will mutate it, but keep replicate references.
d33030c8e2cc Uploaded greg parents: diff changeset	362 reps = reps[:]
d33030c8e2cc Uploaded greg parents: diff changeset	363 while len(reps) > 1:
d33030c8e2cc Uploaded greg parents: diff changeset	364 # Iterate over each replicate as "main"
d33030c8e2cc Uploaded greg parents: diff changeset	365 main = reps[0]
d33030c8e2cc Uploaded greg parents: diff changeset	366 reps.remove(main)
d33030c8e2cc Uploaded greg parents: diff changeset	367 for chromosome in main.chromosomes.values():
d33030c8e2cc Uploaded greg parents: diff changeset	368 peaks_by_value = chromosome.peaks[:]
d33030c8e2cc Uploaded greg parents: diff changeset	369 # Sort main replicate by value
d33030c8e2cc Uploaded greg parents: diff changeset	370 peaks_by_value.sort(key=lambda peak: -peak.value)
d33030c8e2cc Uploaded greg parents: diff changeset	371
d33030c8e2cc Uploaded greg parents: diff changeset	372 def search_for_matches(group):
d33030c8e2cc Uploaded greg parents: diff changeset	373 # Here we use multiple passes, expanding the window to be
d33030c8e2cc Uploaded greg parents: diff changeset	374 # +- distance from any previously matched peak.
d33030c8e2cc Uploaded greg parents: diff changeset	375 while True:
d33030c8e2cc Uploaded greg parents: diff changeset	376 new_match = False
d33030c8e2cc Uploaded greg parents: diff changeset	377 for replicate in reps:
d33030c8e2cc Uploaded greg parents: diff changeset	378 if replicate.id in group.peaks:
d33030c8e2cc Uploaded greg parents: diff changeset	379 # Stop if match already found for this replicate
d33030c8e2cc Uploaded greg parents: diff changeset	380 continue
d33030c8e2cc Uploaded greg parents: diff changeset	381 try:
d33030c8e2cc Uploaded greg parents: diff changeset	382 # Lines changed to remove a major bug by Rohit Reja.
d33030c8e2cc Uploaded greg parents: diff changeset	383 window, chrum = get_window(replicate.chromosomes[chromosome.name],
d33030c8e2cc Uploaded greg parents: diff changeset	384 group.peaks.values(),
d33030c8e2cc Uploaded greg parents: diff changeset	385 distance)
d33030c8e2cc Uploaded greg parents: diff changeset	386 match = METHODS[method](window, peak, chrum)
d33030c8e2cc Uploaded greg parents: diff changeset	387 except KeyError:
d33030c8e2cc Uploaded greg parents: diff changeset	388 continue
d33030c8e2cc Uploaded greg parents: diff changeset	389 if match:
d33030c8e2cc Uploaded greg parents: diff changeset	390 group.add_peak(replicate.id, match)
d33030c8e2cc Uploaded greg parents: diff changeset	391 new_match = True
d33030c8e2cc Uploaded greg parents: diff changeset	392 if not new_match:
d33030c8e2cc Uploaded greg parents: diff changeset	393 break
d33030c8e2cc Uploaded greg parents: diff changeset	394 # Attempt to enlarge existing peak groups
d33030c8e2cc Uploaded greg parents: diff changeset	395 for group in peak_groups:
d33030c8e2cc Uploaded greg parents: diff changeset	396 old_peaks = group.peaks.values()[:]
d33030c8e2cc Uploaded greg parents: diff changeset	397 search_for_matches(group)
d33030c8e2cc Uploaded greg parents: diff changeset	398 for peak in group.peaks.values():
d33030c8e2cc Uploaded greg parents: diff changeset	399 if peak not in old_peaks:
d33030c8e2cc Uploaded greg parents: diff changeset	400 peak.replicate.chromosomes[chromosome.name].remove_peak(peak)
d33030c8e2cc Uploaded greg parents: diff changeset	401 # Attempt to find new peaks groups. For each peak in the
d33030c8e2cc Uploaded greg parents: diff changeset	402 # main replicate, search for matches in the other replicates
d33030c8e2cc Uploaded greg parents: diff changeset	403 for peak in peaks_by_value:
d33030c8e2cc Uploaded greg parents: diff changeset	404 matches = PeakGroup()
d33030c8e2cc Uploaded greg parents: diff changeset	405 matches.add_peak(main.id, peak)
d33030c8e2cc Uploaded greg parents: diff changeset	406 search_for_matches(matches)
d33030c8e2cc Uploaded greg parents: diff changeset	407 # Were enough replicates matched?
d33030c8e2cc Uploaded greg parents: diff changeset	408 if matches.num_replicates >= num_required:
d33030c8e2cc Uploaded greg parents: diff changeset	409 for peak in matches.peaks.values():
d33030c8e2cc Uploaded greg parents: diff changeset	410 peak.replicate.chromosomes[chromosome.name].remove_peak(peak)
d33030c8e2cc Uploaded greg parents: diff changeset	411 peak_groups.append(matches)
d33030c8e2cc Uploaded greg parents: diff changeset	412 # Zero or less = no stepping
d33030c8e2cc Uploaded greg parents: diff changeset	413 if step <= 0:
d33030c8e2cc Uploaded greg parents: diff changeset	414 do_match(replicates, distance)
d33030c8e2cc Uploaded greg parents: diff changeset	415 else:
d33030c8e2cc Uploaded greg parents: diff changeset	416 for d in range(0, distance, step):
d33030c8e2cc Uploaded greg parents: diff changeset	417 do_match(replicates, d)
d33030c8e2cc Uploaded greg parents: diff changeset	418 for group in peak_groups:
d33030c8e2cc Uploaded greg parents: diff changeset	419 freq.add(group.num_replicates)
d33030c8e2cc Uploaded greg parents: diff changeset	420 # Collect together the remaining orphans
d33030c8e2cc Uploaded greg parents: diff changeset	421 for replicate in replicates:
d33030c8e2cc Uploaded greg parents: diff changeset	422 for chromosome in replicate.chromosomes.values():
d33030c8e2cc Uploaded greg parents: diff changeset	423 for peak in chromosome.peaks:
d33030c8e2cc Uploaded greg parents: diff changeset	424 freq.add(1)
d33030c8e2cc Uploaded greg parents: diff changeset	425 orphans.append(peak)
d33030c8e2cc Uploaded greg parents: diff changeset	426 # Average the orphan count in the graph by # replicates
d33030c8e2cc Uploaded greg parents: diff changeset	427 med = median([peak.value for group in peak_groups for peak in group.peaks.values()])
d33030c8e2cc Uploaded greg parents: diff changeset	428 for replicate in replicates:
d33030c8e2cc Uploaded greg parents: diff changeset	429 replicate.median = median([peak.value for group in peak_groups for peak in group.peaks.values() if peak.replicate == replicate])
d33030c8e2cc Uploaded greg parents: diff changeset	430 key_output.writerow((replicate.id, replicate.median))
d33030c8e2cc Uploaded greg parents: diff changeset	431 for group in peak_groups:
d33030c8e2cc Uploaded greg parents: diff changeset	432 # Output summary (matched pairs).
d33030c8e2cc Uploaded greg parents: diff changeset	433 summary_output.writerow(gff_row(cname=group.chrom,
d33030c8e2cc Uploaded greg parents: diff changeset	434 start=group.midpoint,
d33030c8e2cc Uploaded greg parents: diff changeset	435 end=group.midpoint+1,
d33030c8e2cc Uploaded greg parents: diff changeset	436 source='repmatch',
d33030c8e2cc Uploaded greg parents: diff changeset	437 score=group.normalized_value(med),
d33030c8e2cc Uploaded greg parents: diff changeset	438 attrs={'median_distance': group.median_distance,
d33030c8e2cc Uploaded greg parents: diff changeset	439 'replicates': group.num_replicates,
d33030c8e2cc Uploaded greg parents: diff changeset	440 'value_sum': group.value_sum}))
d33030c8e2cc Uploaded greg parents: diff changeset	441 if output_detail_file:
d33030c8e2cc Uploaded greg parents: diff changeset	442 summary = (group.chrom,
d33030c8e2cc Uploaded greg parents: diff changeset	443 group.midpoint,
d33030c8e2cc Uploaded greg parents: diff changeset	444 group.midpoint+1,
d33030c8e2cc Uploaded greg parents: diff changeset	445 group.normalized_value(med),
d33030c8e2cc Uploaded greg parents: diff changeset	446 group.num_replicates,
d33030c8e2cc Uploaded greg parents: diff changeset	447 group.median_distance,
d33030c8e2cc Uploaded greg parents: diff changeset	448 group.value_sum)
d33030c8e2cc Uploaded greg parents: diff changeset	449 for peak in group.peaks.values():
d33030c8e2cc Uploaded greg parents: diff changeset	450 summary += (peak.chrom, peak.midpoint, peak.midpoint+1, peak.value, peak.distance, peak.replicate.id)
d33030c8e2cc Uploaded greg parents: diff changeset	451 detail_output.writerow(summary)
d33030c8e2cc Uploaded greg parents: diff changeset	452 if output_orphan_file:
d33030c8e2cc Uploaded greg parents: diff changeset	453 for orphan in orphans:
d33030c8e2cc Uploaded greg parents: diff changeset	454 orphan_output.writerow((orphan.chrom,
d33030c8e2cc Uploaded greg parents: diff changeset	455 orphan.midpoint,
d33030c8e2cc Uploaded greg parents: diff changeset	456 orphan.midpoint+1,
d33030c8e2cc Uploaded greg parents: diff changeset	457 orphan.value,
d33030c8e2cc Uploaded greg parents: diff changeset	458 orphan.distance,
d33030c8e2cc Uploaded greg parents: diff changeset	459 orphan.replicate.id))
d33030c8e2cc Uploaded greg parents: diff changeset	460 if output_histogram_file:
d33030c8e2cc Uploaded greg parents: diff changeset	461 tmp_histogram_path = get_temporary_plot_path(plot_format)
d33030c8e2cc Uploaded greg parents: diff changeset	462 frequency_histogram([freq], tmp_histogram_path)
d33030c8e2cc Uploaded greg parents: diff changeset	463 shutil.move(tmp_histogram_path, output_histogram)
d33030c8e2cc Uploaded greg parents: diff changeset	464 return {'distribution': freq}

Mercurial > repos > greg > repmatch_gff3

annotate repmatch_gff3_util.py @ 3:94e374d13037 draft