edger_with_design_matrix: design_matrix

annotate design_matrix_creator.py @ 68:718bb1dd0b8a draft

Uploaded

author	yhoogstrate
date	Tue, 30 Sep 2014 09:09:29 -0400
parents	7fc17dc83777
children

rev	line source
31 9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	1 #!/usr/bin/env python
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	2 import argparse, os, shutil, sys, tempfile, subprocess
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	3
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	4
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	5 class sampleContainer:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	6 def __init__(self):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	7 self.samples = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	8 self.treatments = {}
52 7fc17dc83777 Uploaded yhoogstrate parents: 31 diff changeset	9 self.treatment_index = []
31 9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	10 self.treatment_types = {}
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	11
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	12 def do_decode(self,encoded_str):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	13 return encoded_str.decode("base64").strip().replace("\t",'')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	14
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	15 def add_samples(self,argument):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	16 print " - Adding samples"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	17 for sample in argument:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	18 self.add_sample(self.do_decode(sample))
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	19
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	20 def add_sample(self,sample):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	21 if(sample in self.samples):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	22 sys.stderr.write("Error:\n* Non-unique sample: "+sample+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	23 sys.exit(1)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	24 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	25 self.samples.append(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	26 print " - Added: "+sample
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	27
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	28 def add_blocking(self,argument):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	29 print " - Adding paired samples"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	30 pair = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	31 for block in argument:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	32 self.add_block(block)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	33
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	34 def add_block(self,blocks):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	35 blocks = blocks.split(":")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	36 as_treatment = blocks[0]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	37 blocks = blocks[1:]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	38
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	39 used_samples = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	40 indexed_samples = {}
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	41
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	42 for i in range(len(blocks)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	43 block = blocks[i]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	44 samples = self.get_samples_from_block(block)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	45 indexed_samples[i+1] = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	46 for sample in samples:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	47 if(sample in used_samples):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	48 sys.stderr.write("Error:\n* Blocking contains multiple times the same sample: "+sample+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	49 sys.exit(0)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	50 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	51 indexed_samples[i+1] = block
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	52 used_samples.append(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	53
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	54 for sample in self.samples:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	55 if(sample not in used_samples):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	56 i = i + 1
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	57 indexed_samples[i+1] = str(sample).encode('base64').strip()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	58
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	59 for index in indexed_samples.keys():
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	60 key = str(index).encode('base64').strip()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	61 as_treatment += ":"+key+":"+indexed_samples[index]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	62
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	63 self.add_treatment(as_treatment)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	64
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	65 def get_samples_from_block(self,decoded_block):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	66 return [ self.do_decode(x) for x in decoded_block.split(",")]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	67
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	68 def add_treatments(self,argument):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	69 print " - Adding treatments"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	70 for treatment in argument:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	71 self.add_treatment(treatment)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	72
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	73 def add_treatment(self,treatment_argument):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	74 print " - Parsing treatment"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	75
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	76
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	77 treatment_argument = treatment_argument.split(":")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	78 name = self.do_decode(treatment_argument[0])
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	79 treatment_argument = treatment_argument[1:]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	80
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	81
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	82 treatment = {"factor_index":{},"sample_index":{}}
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	83 only_integers = True
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	84
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	85 i = 1
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	86 for item in treatment_argument:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	87 if(i % 2):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	88 factor = self.do_decode(item)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	89
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	90 if(treatment['factor_index'].has_key(factor)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	91 sys.stderr.write("Error:\n* Factor has been added multiple times to treatment: "+factor+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	92 sys.exit(0)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	93 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	94 print " - Adding factor: "+factor
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	95 treatment["factor_index"][factor] = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	96 if(not factor.isdigit()):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	97 only_integers = False
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	98 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	99 for sample in item.split(","):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	100 sample = self.do_decode(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	101
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	102 if(not sample in self.samples):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	103 sys.stderr.write("Error:\n* Unknown sample: "+sample+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	104 sys.exit(0)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	105
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	106 treatment["factor_index"][factor].append(sample)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	107 if(treatment["sample_index"].has_key(sample)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	108 sys.stderr.write("Error:\n* Factor has been added to treatment before: "+sample+"/"+factor+", factors must be mutually exclusive!\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	109 sys.exit(0)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	110 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	111 treatment["sample_index"][sample] = factor
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	112 i += 1
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	113
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	114 treatment_factors = sorted(treatment["factor_index"].keys())
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	115
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	116 if(name == None):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	117 treatment["name"] = "_vs_".join(treatment_factors)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	118 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	119 treatment["name"] = str(name)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	120
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	121 if(len(treatment["sample_index"]) != len(self.samples)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	122 sys.stderr.write("Error:\n* The number of samples for treatment '"+treatment["name"]+"' ("+str(len(treatment["sample_index"]))+") is different from the total number of samples ("+str(len(self.samples))+").\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	123
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	124 if(only_integers):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	125 treatment_type = "integer"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	126 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	127 treatment_type = "string"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	128
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	129 if(self.treatments.has_key(treatment["name"])):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	130 sys.stderr.write("Error:\n* Treatment was already added: '"+treatment["name"]+"\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	131 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	132 self.treatments[treatment["name"]] = treatment
52 7fc17dc83777 Uploaded yhoogstrate parents: 31 diff changeset	133 self.treatment_index.append(treatment["name"])
31 9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	134 self.treatment_types[treatment["name"]] = treatment_type
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	135 print " - Treatment \""+treatment["name"]+"\" of type \""+treatment_type+"\" is valid"
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	136
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	137 def export(self,output):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	138 # Open file stream
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	139 if(args.output == "-"):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	140 fh = sys.stdout
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	141 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	142 fh = open(args.output,"w")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	143
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	144 # Write header:
52 7fc17dc83777 Uploaded yhoogstrate parents: 31 diff changeset	145 fh.write("sample-name\t"+"\t".join(self.treatment_index)+"\n")
31 9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	146
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	147 # Write body:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	148 for sample in self.samples:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	149 fh.write(sample)
52 7fc17dc83777 Uploaded yhoogstrate parents: 31 diff changeset	150 for treatment_id in self.treatment_index:
7fc17dc83777 Uploaded yhoogstrate parents: 31 diff changeset	151 treatment = self.treatments[treatment_id]
7fc17dc83777 Uploaded yhoogstrate parents: 31 diff changeset	152 fh.write("\t"+treatment["sample_index"][sample])
31 9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	153 fh.write("\n")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	154
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	155 fh.close()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	156
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	157 if __name__=="__main__":
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	158 parser = argparse.ArgumentParser(description="Create an edgeR design matrix with read-count datasets.")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	159 parser.add_argument("-o","--output", help="Output file, '-' for stdout.",required=True)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	160 parser.add_argument("-c","--columns-file", nargs="?", help='Use columns of [this] file as UIDs (counting from 1)')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	161 parser.add_argument("-s","--sample-names", nargs="*", help='Sample names (UIDs that correspond to the columns in the expression matrix)')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	162 parser.add_argument("-t","--treatments", nargs="+", help='Treatment or conditions: "name::sample:condition& (sample-names and conditions have to be provided using Base64 encoding to avoid weird characters)',required=True)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	163 parser.add_argument("-b","--blocking", nargs="+", help='Description of sample blocking: "blocking_condition*&sample-1-name&sample-2-name&sample-n-name"')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	164
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	165 args = parser.parse_args()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	166
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	167 columns = None
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	168 if(args.columns_file):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	169 with open(args.columns_file, "r") as f:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	170 listed_columns = [None] + f.readline().strip("\n").split("\t")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	171 for i in range(1,len(listed_columns)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	172 listed_columns[i] = listed_columns[i].encode('base64').replace('\n','')
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	173
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	174 s = sampleContainer()
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	175
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	176 if(listed_columns):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	177 columns = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	178 for sample in args.sample_names:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	179 columns.append(listed_columns[int(sample)])
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	180
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	181
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	182 treatments = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	183 for treatment in args.treatments:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	184 treatment = treatment.split(":")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	185 for i in range(1,len(treatment)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	186 if(i%2 == 0):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	187 treatment_tmp = treatment[i].split(",")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	188 for j in range(len(treatment_tmp)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	189 treatment_tmp[j] = listed_columns[int(treatment_tmp[j])]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	190 treatment[i] = ",".join(treatment_tmp)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	191
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	192 treatments.append(":".join(treatment))
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	193
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	194 blockings = []
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	195 if(args.blocking):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	196 for blocking in args.blocking:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	197 blocking = blocking.split(":")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	198 for i in range(1,len(blocking)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	199 block = blocking[i].split(",")
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	200 for j in range(len(block)):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	201 block[j] = listed_columns[int(block[j])]
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	202 blocking[i] = ",".join(block)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	203 blockings.append(":".join(blocking))
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	204
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	205 s.add_samples(columns)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	206 s.add_treatments(treatments)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	207 s.add_blocking(blockings)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	208
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	209 else:
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	210 s.add_samples(args.sample_names)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	211 s.add_treatments(args.treatments)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	212 if(args.blocking):
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	213 s.add_blocking(args.blocking)
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	214
9e9b98a1cb12 Uploaded yhoogstrate parents: diff changeset	215 s.export(args.output)

Mercurial > repos > yhoogstrate > edger_with_design_matrix

annotate design_matrix_creator.py @ 68:718bb1dd0b8a draft