hetbox: hetbox.py annotate

annotate hetbox.py @ 1:b4f9a4f2f65d draft

Uploaded xml

author	boris
date	Thu, 13 Jun 2013 15:10:09 -0400
parents	153d1a6e8c5e
children	57c5ea9c3c5c

rev	line source
0 153d1a6e8c5e Uploaded script boris parents: diff changeset	1 #!/usr/bin/env python
153d1a6e8c5e Uploaded script boris parents: diff changeset	2 # Code by Boris Rebolledo-Jaramillo
153d1a6e8c5e Uploaded script boris parents: diff changeset	3 # (boris-at-bx.psu.edu)
153d1a6e8c5e Uploaded script boris parents: diff changeset	4 # Edited by Nick Stoler
153d1a6e8c5e Uploaded script boris parents: diff changeset	5 # (nick-at-bx.psu.edu)
153d1a6e8c5e Uploaded script boris parents: diff changeset	6 # New in this version:
153d1a6e8c5e Uploaded script boris parents: diff changeset	7 # - Add in proper header line if not present
153d1a6e8c5e Uploaded script boris parents: diff changeset	8
153d1a6e8c5e Uploaded script boris parents: diff changeset	9 import os
153d1a6e8c5e Uploaded script boris parents: diff changeset	10 import sys
153d1a6e8c5e Uploaded script boris parents: diff changeset	11 import numpy
153d1a6e8c5e Uploaded script boris parents: diff changeset	12 from rpy2.robjects import Formula
153d1a6e8c5e Uploaded script boris parents: diff changeset	13 from rpy2.robjects.packages import importr
153d1a6e8c5e Uploaded script boris parents: diff changeset	14 from rpy2 import robjects
153d1a6e8c5e Uploaded script boris parents: diff changeset	15
153d1a6e8c5e Uploaded script boris parents: diff changeset	16 def fail(message):
153d1a6e8c5e Uploaded script boris parents: diff changeset	17 sys.stderr.write(message+'\n')
153d1a6e8c5e Uploaded script boris parents: diff changeset	18 sys.exit(1)
153d1a6e8c5e Uploaded script boris parents: diff changeset	19
153d1a6e8c5e Uploaded script boris parents: diff changeset	20 COLUMN_LABELS = ['SAMPLE', 'CHR', 'POS', 'A', 'C', 'G', 'T', 'CVRG',
153d1a6e8c5e Uploaded script boris parents: diff changeset	21 'ALLELES', 'MAJOR', 'MINOR', 'MINOR.FREQ.PERC.'] #, 'STRAND.BIAS']
153d1a6e8c5e Uploaded script boris parents: diff changeset	22
153d1a6e8c5e Uploaded script boris parents: diff changeset	23 args = sys.argv[1:]
153d1a6e8c5e Uploaded script boris parents: diff changeset	24 if len(args) >= 1:
153d1a6e8c5e Uploaded script boris parents: diff changeset	25 infile = args[0]
153d1a6e8c5e Uploaded script boris parents: diff changeset	26 else:
153d1a6e8c5e Uploaded script boris parents: diff changeset	27 fail('Error: No input filename provided (as argument 1).')
153d1a6e8c5e Uploaded script boris parents: diff changeset	28 if len(args) >= 2:
153d1a6e8c5e Uploaded script boris parents: diff changeset	29 outfile = args[1]
153d1a6e8c5e Uploaded script boris parents: diff changeset	30 else:
153d1a6e8c5e Uploaded script boris parents: diff changeset	31 fail('Error: No output filename provided (as argument 2).')
153d1a6e8c5e Uploaded script boris parents: diff changeset	32 if len(args) >= 3:
153d1a6e8c5e Uploaded script boris parents: diff changeset	33 report = args[2]
153d1a6e8c5e Uploaded script boris parents: diff changeset	34 else:
153d1a6e8c5e Uploaded script boris parents: diff changeset	35 report = ''
153d1a6e8c5e Uploaded script boris parents: diff changeset	36
153d1a6e8c5e Uploaded script boris parents: diff changeset	37 # Check input file
153d1a6e8c5e Uploaded script boris parents: diff changeset	38 add_header = False
153d1a6e8c5e Uploaded script boris parents: diff changeset	39 if not os.path.exists(infile):
153d1a6e8c5e Uploaded script boris parents: diff changeset	40 fail('Error: Input file '+infile+' could not be found.')
153d1a6e8c5e Uploaded script boris parents: diff changeset	41 with open(infile, 'r') as lines:
153d1a6e8c5e Uploaded script boris parents: diff changeset	42 line = lines.readline()
153d1a6e8c5e Uploaded script boris parents: diff changeset	43 if not line:
153d1a6e8c5e Uploaded script boris parents: diff changeset	44 fail('Error: Input file seems to be empty')
153d1a6e8c5e Uploaded script boris parents: diff changeset	45 line = line.strip().lstrip('#') # rm whitespace, comment chars
153d1a6e8c5e Uploaded script boris parents: diff changeset	46 labels = line.split("\t")
153d1a6e8c5e Uploaded script boris parents: diff changeset	47 if 'SAMPLE' not in labels or labels[11] != 'MINOR.FREQ.PERC.':
153d1a6e8c5e Uploaded script boris parents: diff changeset	48 sys.stderr.write("Error: Input file does not seem to have a proper header "
153d1a6e8c5e Uploaded script boris parents: diff changeset	49 +"line.\nAdding an artificial header..")
153d1a6e8c5e Uploaded script boris parents: diff changeset	50 add_header = True
153d1a6e8c5e Uploaded script boris parents: diff changeset	51
153d1a6e8c5e Uploaded script boris parents: diff changeset	52 base = importr('base')
153d1a6e8c5e Uploaded script boris parents: diff changeset	53 utils = importr('utils')
153d1a6e8c5e Uploaded script boris parents: diff changeset	54 stats = importr('stats')
153d1a6e8c5e Uploaded script boris parents: diff changeset	55 rprint = robjects.globalenv.get("print")
153d1a6e8c5e Uploaded script boris parents: diff changeset	56 graphics = importr('graphics')
153d1a6e8c5e Uploaded script boris parents: diff changeset	57 grdevices = importr('grDevices')
153d1a6e8c5e Uploaded script boris parents: diff changeset	58 grdevices.png(file=outfile, width=1024, height=768)
153d1a6e8c5e Uploaded script boris parents: diff changeset	59
153d1a6e8c5e Uploaded script boris parents: diff changeset	60 # Read file into a data frame
153d1a6e8c5e Uploaded script boris parents: diff changeset	61 if add_header:
153d1a6e8c5e Uploaded script boris parents: diff changeset	62 # add header line manually if not present
153d1a6e8c5e Uploaded script boris parents: diff changeset	63 DATA = utils.read_delim(infile, header=False)
153d1a6e8c5e Uploaded script boris parents: diff changeset	64 labels = robjects.r.names(DATA)
153d1a6e8c5e Uploaded script boris parents: diff changeset	65 for i in range(len(labels)):
153d1a6e8c5e Uploaded script boris parents: diff changeset	66 try:
153d1a6e8c5e Uploaded script boris parents: diff changeset	67 labels[i] = COLUMN_LABELS[i]
153d1a6e8c5e Uploaded script boris parents: diff changeset	68 except IndexError, e:
153d1a6e8c5e Uploaded script boris parents: diff changeset	69 fail("Error in input file: Too many columns (does not match hardcoded "
153d1a6e8c5e Uploaded script boris parents: diff changeset	70 +"column labels).")
153d1a6e8c5e Uploaded script boris parents: diff changeset	71 else:
153d1a6e8c5e Uploaded script boris parents: diff changeset	72 DATA = utils.read_delim(infile)
153d1a6e8c5e Uploaded script boris parents: diff changeset	73 # Remove comment from header, if present
153d1a6e8c5e Uploaded script boris parents: diff changeset	74 labels = robjects.r.names(DATA)
153d1a6e8c5e Uploaded script boris parents: diff changeset	75 if labels[0][0:2] == 'X.':
153d1a6e8c5e Uploaded script boris parents: diff changeset	76 labels[0] = labels[0][2:]
153d1a6e8c5e Uploaded script boris parents: diff changeset	77
153d1a6e8c5e Uploaded script boris parents: diff changeset	78 # Multiply minor allele frequencies by 100 to get percentage
153d1a6e8c5e Uploaded script boris parents: diff changeset	79 # .rx2() looks up a column by its label and returns it as a vector
153d1a6e8c5e Uploaded script boris parents: diff changeset	80 # .ro turns the returned object into one that can be operated on per-element
153d1a6e8c5e Uploaded script boris parents: diff changeset	81 minor_freq = DATA.rx2('MINOR.FREQ.PERC.').ro * 100
153d1a6e8c5e Uploaded script boris parents: diff changeset	82 samples = DATA.rx2('SAMPLE')
153d1a6e8c5e Uploaded script boris parents: diff changeset	83
153d1a6e8c5e Uploaded script boris parents: diff changeset	84 # Formula() creates a Python object representing the R object returned by x ~ y
153d1a6e8c5e Uploaded script boris parents: diff changeset	85 formula = Formula('minor_freq ~ samples')
153d1a6e8c5e Uploaded script boris parents: diff changeset	86 # The "environment" in .getenvironment() is the entire R workspace in which the
153d1a6e8c5e Uploaded script boris parents: diff changeset	87 # Formula object exists. The R workspace meaning all the defined variables.
153d1a6e8c5e Uploaded script boris parents: diff changeset	88 # Here, the .getenvironment() method is being used to set some variables in the
153d1a6e8c5e Uploaded script boris parents: diff changeset	89
153d1a6e8c5e Uploaded script boris parents: diff changeset	90 # R workspace
153d1a6e8c5e Uploaded script boris parents: diff changeset	91 formula.getenvironment()['minor_freq'] = minor_freq
153d1a6e8c5e Uploaded script boris parents: diff changeset	92 formula.getenvironment()['samples'] = samples
153d1a6e8c5e Uploaded script boris parents: diff changeset	93
153d1a6e8c5e Uploaded script boris parents: diff changeset	94 # create boxplot - fill kwargs1 with the options for the boxplot function
153d1a6e8c5e Uploaded script boris parents: diff changeset	95 kwargs1 = {'ylab':"Minor allele frequency (%)", 'col':"gray", 'xaxt':"n",
153d1a6e8c5e Uploaded script boris parents: diff changeset	96 'outpch':"*",'main':"Distribution of minor allele frequencies",
153d1a6e8c5e Uploaded script boris parents: diff changeset	97 'cex.lab':"1.5"}
153d1a6e8c5e Uploaded script boris parents: diff changeset	98 p = graphics.boxplot(formula, **kwargs1)
153d1a6e8c5e Uploaded script boris parents: diff changeset	99 table = base.table(DATA.rx2('SAMPLE'))
153d1a6e8c5e Uploaded script boris parents: diff changeset	100 graphics.text(0.5, 1, 'N:', font=2)
153d1a6e8c5e Uploaded script boris parents: diff changeset	101 for i in range(1, base.length(table)[0]+1, 1):
153d1a6e8c5e Uploaded script boris parents: diff changeset	102 graphics.text(i, 1, table[i-1], font=2)
153d1a6e8c5e Uploaded script boris parents: diff changeset	103
153d1a6e8c5e Uploaded script boris parents: diff changeset	104 graphlabels = base.names(table)
153d1a6e8c5e Uploaded script boris parents: diff changeset	105 kwargs3 = {'pos':"0", 'las':"2", 'cex.axis':"1"}
153d1a6e8c5e Uploaded script boris parents: diff changeset	106 graphics.axis(1, at=range(1, len(graphlabels)+1, 1), labels=graphlabels, **kwargs3)
153d1a6e8c5e Uploaded script boris parents: diff changeset	107 grdevices.dev_off()
153d1a6e8c5e Uploaded script boris parents: diff changeset	108
153d1a6e8c5e Uploaded script boris parents: diff changeset	109 if not report:
153d1a6e8c5e Uploaded script boris parents: diff changeset	110 sys.exit(0)
153d1a6e8c5e Uploaded script boris parents: diff changeset	111
153d1a6e8c5e Uploaded script boris parents: diff changeset	112
153d1a6e8c5e Uploaded script boris parents: diff changeset	113 ####################################
153d1a6e8c5e Uploaded script boris parents: diff changeset	114 # GENERATE REPORT
153d1a6e8c5e Uploaded script boris parents: diff changeset	115 # report should be something like:
153d1a6e8c5e Uploaded script boris parents: diff changeset	116 # SAMPLE NoHET MEDIAN MAD TEST
153d1a6e8c5e Uploaded script boris parents: diff changeset	117 # s1 7 10% n p/w/f
153d1a6e8c5e Uploaded script boris parents: diff changeset	118 # n <= 5 pass
153d1a6e8c5e Uploaded script boris parents: diff changeset	119 # 6 <= n <=10 warn
153d1a6e8c5e Uploaded script boris parents: diff changeset	120 # n >= 11 fail
153d1a6e8c5e Uploaded script boris parents: diff changeset	121 # MAD <= 2.0 fail
153d1a6e8c5e Uploaded script boris parents: diff changeset	122 # MAD > 2.0 pass
153d1a6e8c5e Uploaded script boris parents: diff changeset	123 ###################################
153d1a6e8c5e Uploaded script boris parents: diff changeset	124
153d1a6e8c5e Uploaded script boris parents: diff changeset	125 SAMPLES=[]
153d1a6e8c5e Uploaded script boris parents: diff changeset	126 for i in range(len(table)):
153d1a6e8c5e Uploaded script boris parents: diff changeset	127 SAMPLES.append(base.names(table)[i])
153d1a6e8c5e Uploaded script boris parents: diff changeset	128
153d1a6e8c5e Uploaded script boris parents: diff changeset	129 def boxstats(data,sample):
153d1a6e8c5e Uploaded script boris parents: diff changeset	130 VALUES = [100*float(x.strip().split('\t')[11]) for x in list(open(data)) if x.strip().split('\t')[0]==sample]
153d1a6e8c5e Uploaded script boris parents: diff changeset	131 NoHET = len(VALUES)
153d1a6e8c5e Uploaded script boris parents: diff changeset	132 MEDIAN = numpy.median(VALUES)
153d1a6e8c5e Uploaded script boris parents: diff changeset	133 MAD = numpy.median([abs(i - MEDIAN) for i in VALUES]) # Median absolute distance (robust spread statistic)
153d1a6e8c5e Uploaded script boris parents: diff changeset	134 return [NoHET,MEDIAN, MAD]
153d1a6e8c5e Uploaded script boris parents: diff changeset	135
153d1a6e8c5e Uploaded script boris parents: diff changeset	136 boxreport = open(report, "w+")
153d1a6e8c5e Uploaded script boris parents: diff changeset	137 boxreport.write("SAMPLE\tTOTAL.SITES\tMEDIAN.FREQ.\tMAD.FREQ\tEVAL\n")
153d1a6e8c5e Uploaded script boris parents: diff changeset	138 for sample in SAMPLES:
153d1a6e8c5e Uploaded script boris parents: diff changeset	139 ENTRY = [sample] + boxstats(infile,sample)
153d1a6e8c5e Uploaded script boris parents: diff changeset	140 if ENTRY[1] <= 5:
153d1a6e8c5e Uploaded script boris parents: diff changeset	141 ENTRY.append('pass')
153d1a6e8c5e Uploaded script boris parents: diff changeset	142 elif 6 <= ENTRY[1] <=10:
153d1a6e8c5e Uploaded script boris parents: diff changeset	143 ENTRY.append('warn')
153d1a6e8c5e Uploaded script boris parents: diff changeset	144 elif ENTRY[1] >= 11:
153d1a6e8c5e Uploaded script boris parents: diff changeset	145 ENTRY.append('fail')
153d1a6e8c5e Uploaded script boris parents: diff changeset	146 if ENTRY[3] <=2.0:
153d1a6e8c5e Uploaded script boris parents: diff changeset	147 ENTRY.append('fail')
153d1a6e8c5e Uploaded script boris parents: diff changeset	148 elif ENTRY[3] >2.0:
153d1a6e8c5e Uploaded script boris parents: diff changeset	149 ENTRY.append('pass')
153d1a6e8c5e Uploaded script boris parents: diff changeset	150 if len(set(ENTRY[4:6])) == 2:
153d1a6e8c5e Uploaded script boris parents: diff changeset	151 ENTRY.append('warn')
153d1a6e8c5e Uploaded script boris parents: diff changeset	152 else:
153d1a6e8c5e Uploaded script boris parents: diff changeset	153 ENTRY.append(list(set(ENTRY[4:6]))[0])
153d1a6e8c5e Uploaded script boris parents: diff changeset	154 boxreport.write ('%s\t%d\t%.1f\t%.1f\t%s\n' % tuple([ENTRY[i] for i in [0,1,2,3,6]]))
153d1a6e8c5e Uploaded script boris parents: diff changeset	155
153d1a6e8c5e Uploaded script boris parents: diff changeset	156 boxreport.close()
153d1a6e8c5e Uploaded script boris parents: diff changeset	157
153d1a6e8c5e Uploaded script boris parents: diff changeset	158
153d1a6e8c5e Uploaded script boris parents: diff changeset	159
153d1a6e8c5e Uploaded script boris parents: diff changeset	160

Mercurial > repos > boris > hetbox

annotate hetbox.py @ 1:b4f9a4f2f65d draft