edger_with_design_matrix: design_matrix

annotate design_matrix_creator.py @ 38:47eadcd9e4b8 draft

Uploaded

author	yhoogstrate
date	Thu, 22 May 2014 10:14:59 -0400
parents	9e9b98a1cb12
children	7fc17dc83777

rev	line source
31 9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	1 #!/usr/bin/env python
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	2 import argparse, os, shutil, sys, tempfile, subprocess
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	3
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	4
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	5 class sampleContainer:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	6 def __init__(self):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	7 self.samples = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	8 self.treatments = {}
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	9 self.treatment_types = {}
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	10
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	11 def do_decode(self,encoded_str):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	12 return encoded_str.decode("base64").strip().replace("\t",'')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	13
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	14 def add_samples(self,argument):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	15 print " - Adding samples"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	16 for sample in argument:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	17 self.add_sample(self.do_decode(sample))
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	18
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	19 def add_sample(self,sample):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	20 if(sample in self.samples):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	21 sys.stderr.write("Error:\n* Non-unique sample: "+sample+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	22 sys.exit(1)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	23 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	24 self.samples.append(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	25 print " - Added: "+sample
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	26
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	27 def add_blocking(self,argument):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	28 print " - Adding paired samples"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	29 pair = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	30 for block in argument:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	31 self.add_block(block)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	32
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	33 def add_block(self,blocks):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	34 blocks = blocks.split(":")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	35 as_treatment = blocks[0]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	36 blocks = blocks[1:]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	37
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	38 used_samples = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	39 indexed_samples = {}
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	40
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	41 for i in range(len(blocks)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	42 block = blocks[i]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	43 samples = self.get_samples_from_block(block)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	44 indexed_samples[i+1] = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	45 for sample in samples:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	46 if(sample in used_samples):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	47 sys.stderr.write("Error:\n* Blocking contains multiple times the same sample: "+sample+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	48 sys.exit(0)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	49 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	50 indexed_samples[i+1] = block
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	51 used_samples.append(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	52
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	53 for sample in self.samples:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	54 if(sample not in used_samples):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	55 i = i + 1
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	56 indexed_samples[i+1] = str(sample).encode('base64').strip()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	57
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	58 for index in indexed_samples.keys():
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	59 key = str(index).encode('base64').strip()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	60 as_treatment += ":"+key+":"+indexed_samples[index]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	61
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	62 self.add_treatment(as_treatment)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	63
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	64 def get_samples_from_block(self,decoded_block):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	65 return [ self.do_decode(x) for x in decoded_block.split(",")]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	66
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	67 def add_treatments(self,argument):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	68 print " - Adding treatments"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	69 for treatment in argument:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	70 self.add_treatment(treatment)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	71
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	72 def add_treatment(self,treatment_argument):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	73 print " - Parsing treatment"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	74
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	75
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	76 treatment_argument = treatment_argument.split(":")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	77 name = self.do_decode(treatment_argument[0])
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	78 treatment_argument = treatment_argument[1:]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	79
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	80
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	81 treatment = {"factor_index":{},"sample_index":{}}
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	82 only_integers = True
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	83
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	84 i = 1
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	85 for item in treatment_argument:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	86 if(i % 2):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	87 factor = self.do_decode(item)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	88
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	89 if(treatment['factor_index'].has_key(factor)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	90 sys.stderr.write("Error:\n* Factor has been added multiple times to treatment: "+factor+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	91 sys.exit(0)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	92 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	93 print " - Adding factor: "+factor
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	94 treatment["factor_index"][factor] = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	95 if(not factor.isdigit()):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	96 only_integers = False
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	97 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	98 for sample in item.split(","):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	99 sample = self.do_decode(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	100
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	101 if(not sample in self.samples):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	102 sys.stderr.write("Error:\n* Unknown sample: "+sample+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	103 sys.exit(0)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	104
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	105 treatment["factor_index"][factor].append(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	106 if(treatment["sample_index"].has_key(sample)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	107 sys.stderr.write("Error:\n* Factor has been added to treatment before: "+sample+"/"+factor+", factors must be mutually exclusive!\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	108 sys.exit(0)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	109 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	110 treatment["sample_index"][sample] = factor
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	111 i += 1
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	112
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	113 treatment_factors = sorted(treatment["factor_index"].keys())
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	114
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	115 if(name == None):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	116 treatment["name"] = "_vs_".join(treatment_factors)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	117 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	118 treatment["name"] = str(name)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	119
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	120 if(len(treatment["sample_index"]) != len(self.samples)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	121 sys.stderr.write("Error:\n* The number of samples for treatment '"+treatment["name"]+"' ("+str(len(treatment["sample_index"]))+") is different from the total number of samples ("+str(len(self.samples))+").\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	122
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	123 if(only_integers):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	124 treatment_type = "integer"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	125 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	126 treatment_type = "string"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	127
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	128 if(self.treatments.has_key(treatment["name"])):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	129 sys.stderr.write("Error:\n* Treatment was already added: '"+treatment["name"]+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	130 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	131 self.treatments[treatment["name"]] = treatment
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	132 self.treatment_types[treatment["name"]] = treatment_type
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	133 print " - Treatment \""+treatment["name"]+"\" of type \""+treatment_type+"\" is valid"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	134
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	135 def export(self,output):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	136 # Open file stream
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	137 if(args.output == "-"):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	138 fh = sys.stdout
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	139 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	140 fh = open(args.output,"w")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	141
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	142 # Write header:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	143 fh.write("sample-name\t"+"\t".join(self.treatments.keys())+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	144
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	145 # Write body:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	146 for sample in self.samples:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	147 fh.write(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	148 for treatment in self.treatments.keys():
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	149 fh.write("\t"+self.treatments[treatment]["sample_index"][sample])
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	150 fh.write("\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	151
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	152 fh.close()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	153
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	154 if __name__=="__main__":
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	155 parser = argparse.ArgumentParser(description="Create an edgeR design matrix with read-count datasets.")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	156 parser.add_argument("-o","--output", help="Output file, '-' for stdout.",required=True)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	157 parser.add_argument("-c","--columns-file", nargs="?", help='Use columns of [this] file as UIDs (counting from 1)')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	158 parser.add_argument("-s","--sample-names", nargs="*", help='Sample names (UIDs that correspond to the columns in the expression matrix)')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	159 parser.add_argument("-t","--treatments", nargs="+", help='Treatment or conditions: "name::sample:condition& (sample-names and conditions have to be provided using Base64 encoding to avoid weird characters)',required=True)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	160 parser.add_argument("-b","--blocking", nargs="+", help='Description of sample blocking: "blocking_condition*&sample-1-name&sample-2-name&sample-n-name"')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	161
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	162 args = parser.parse_args()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	163
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	164 columns = None
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	165 if(args.columns_file):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	166 with open(args.columns_file, "r") as f:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	167 listed_columns = [None] + f.readline().strip("\n").split("\t")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	168 for i in range(1,len(listed_columns)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	169 listed_columns[i] = listed_columns[i].encode('base64').replace('\n','')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	170
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	171 s = sampleContainer()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	172
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	173 if(listed_columns):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	174 columns = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	175 for sample in args.sample_names:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	176 columns.append(listed_columns[int(sample)])
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	177
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	178
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	179 treatments = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	180 for treatment in args.treatments:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	181 treatment = treatment.split(":")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	182 for i in range(1,len(treatment)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	183 if(i%2 == 0):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	184 treatment_tmp = treatment[i].split(",")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	185 for j in range(len(treatment_tmp)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	186 treatment_tmp[j] = listed_columns[int(treatment_tmp[j])]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	187 treatment[i] = ",".join(treatment_tmp)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	188
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	189 treatments.append(":".join(treatment))
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	190
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	191 blockings = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	192 if(args.blocking):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	193 for blocking in args.blocking:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	194 blocking = blocking.split(":")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	195 for i in range(1,len(blocking)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	196 block = blocking[i].split(",")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	197 for j in range(len(block)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	198 block[j] = listed_columns[int(block[j])]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	199 blocking[i] = ",".join(block)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	200 blockings.append(":".join(blocking))
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	201
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	202 s.add_samples(columns)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	203 s.add_treatments(treatments)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	204 s.add_blocking(blockings)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	205
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	206 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	207 s.add_samples(args.sample_names)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	208 s.add_treatments(args.treatments)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	209 if(args.blocking):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	210 s.add_blocking(args.blocking)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	211
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	212 s.export(args.output)

Mercurial > repos > yhoogstrate > edger_with_design_matrix

annotate design_matrix_creator.py @ 38:47eadcd9e4b8 draft