spp_phantompeak: spp/R/zroutines.R annotate

annotate spp/R/zroutines.R @ 6:ce08b0efa3fd draft

Uploaded

author	zzhou
date	Tue, 27 Nov 2012 16:11:40 -0500
parents
children

rev	line source
6 ce08b0efa3fd Uploaded zzhou parents: diff changeset	1 #library(caTools)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2 #dyn.load("src/bed2vector.so");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	3 #dyn.load("src/wdl.so");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	4 #dyn.load("src/peaks.so");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	5 #dyn.load("src/cdensum.so");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	6
ce08b0efa3fd Uploaded zzhou parents: diff changeset	7
ce08b0efa3fd Uploaded zzhou parents: diff changeset	8 # -------- ROUTINES FOR READING IN THE DATA FILES ------------
ce08b0efa3fd Uploaded zzhou parents: diff changeset	9 # fix.chromosome.names : remove ".fa" suffix from match sequence names
ce08b0efa3fd Uploaded zzhou parents: diff changeset	10 read.eland.tags <- function(filename,read.tag.names=F,fix.chromosome.names=T,max.eland.tag.length=-1,extended=F,multi=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	11 if(read.tag.names) { rtn <- as.integer(1); } else { rtn <- as.integer(0); };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	12 storage.mode(max.eland.tag.length) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	13 callfunction <- "read_eland";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	14 if(extended) { callfunction <- "read_eland_extended"; };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	15 if(multi) { callfunction <- "read_eland_multi"; };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	16 tl <- lapply(.Call(callfunction,filename,rtn,max.eland.tag.length),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	17 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	18 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	19 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	20 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	21 d$s <- d$s[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	22 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	23 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	24 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	25 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	26 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	27 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	28 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	29 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	30 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	31 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n),names=lapply(tl,function(d) d$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	32 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	33 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	34 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	35 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	36
ce08b0efa3fd Uploaded zzhou parents: diff changeset	37 read.tagalign.tags <- function(filename,fix.chromosome.names=T,fix.quality=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	38 tl <- lapply(.Call("read_tagalign",filename),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	39 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	40 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	41 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	42 #if(fix.quality) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	43 # d$n <- 4-cut(d$n,breaks=c(0,250,500,750,1000),labels=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	44 #}
ce08b0efa3fd Uploaded zzhou parents: diff changeset	45 if(fix.quality) { # Anshul: changed the way the quality field is processed
ce08b0efa3fd Uploaded zzhou parents: diff changeset	46 if (min(d$n)<0.5){
ce08b0efa3fd Uploaded zzhou parents: diff changeset	47 d$n = ceiling(1000/4^d$n);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	48 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	49 break.vals <- unique(sort(c(0,unique(d$n))));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	50 d$n <- length(break.vals)-1-cut(d$n,breaks=break.vals,labels=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	51 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	52 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	53 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	54 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	55 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	56 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	57 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	58 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	59 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	60 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	61
ce08b0efa3fd Uploaded zzhou parents: diff changeset	62
ce08b0efa3fd Uploaded zzhou parents: diff changeset	63 read.short.arachne.tags <- function(filename,fix.chromosome.names=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	64 tl <- lapply(.Call("read_arachne",filename),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	65 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	66 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	67 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	68 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	69 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	70 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	71 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	72 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	73 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	74 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	75 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	76 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	77
ce08b0efa3fd Uploaded zzhou parents: diff changeset	78
ce08b0efa3fd Uploaded zzhou parents: diff changeset	79 read.arachne.tags <- function(filename,fix.chromosome.names=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	80 tl <- lapply(.Call("read_arachne_long",filename),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	81 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	82 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	83 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	84 d$l <- d$l[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	85 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	86 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	87 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	88 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	89 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	90 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	91 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	92 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n),length=lapply(tl,function(d) d$l)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	93 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	94
ce08b0efa3fd Uploaded zzhou parents: diff changeset	95 read.bowtie.tags <- function(filename,read.tag.names=F,fix.chromosome.names=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	96 if(read.tag.names) { rtn <- as.integer(1); } else { rtn <- as.integer(0); };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	97 tl <- lapply(.Call("read_bowtie",filename,rtn),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	98 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	99 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	100 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	101 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	102 d$s <- d$s[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	103 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	104 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	105 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	106 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	107 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	108 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	109 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	110 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	111 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	112 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n),names=lapply(tl,function(d) d$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	113 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	114 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	115 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	116 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	117
ce08b0efa3fd Uploaded zzhou parents: diff changeset	118 read.bam.tags <- function(filename,read.tag.names=F,fix.chromosome.names=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	119 if(read.tag.names) { rtn <- as.integer(1); } else { rtn <- as.integer(0); };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	120 tl <- lapply(.Call("read_bam",filename,rtn),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	121 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	122 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	123 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	124 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	125 d$s <- d$s[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	126 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	127 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	128 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	129 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	130 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	131 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	132 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	133 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	134 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	135 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n),names=lapply(tl,function(d) d$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	136 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	137 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	138 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	139 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	140
ce08b0efa3fd Uploaded zzhou parents: diff changeset	141
ce08b0efa3fd Uploaded zzhou parents: diff changeset	142 read.helicos.tags <- function(filename,read.tag.names=F,fix.chromosome.names=F,include.length.info=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	143 if(read.tag.names) { rtn <- as.integer(1); } else { rtn <- as.integer(0); };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	144 tl <- lapply(.Call("read_helicostabf",filename,rtn),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	145 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	146 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	147 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	148 d$l <- d$l[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	149 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	150 d$s <- d$s[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	151 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	152 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	153 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	154 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	155 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	156 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	157 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	158 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	159 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	160 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n),length=lapply(tl,function(d) d$l),names=lapply(tl,function(d) d$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	161 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	162 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n),length=lapply(tl,function(d) d$l)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	163 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	164 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	165
ce08b0efa3fd Uploaded zzhou parents: diff changeset	166 read.maqmap.tags <- function(filename,read.tag.names=F,fix.chromosome.names=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	167 if(read.tag.names) { rtn <- as.integer(1); } else { rtn <- as.integer(0); };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	168 tl <- lapply(.Call("read_maqmap",filename,rtn),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	169 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	170 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	171 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	172 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	173 d$s <- d$s[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	174 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	175 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	176 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	177 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	178 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	179 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	180 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	181 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	182 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	183 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n),names=lapply(tl,function(d) d$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	184 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	185 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	186 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	187 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	188
ce08b0efa3fd Uploaded zzhou parents: diff changeset	189
ce08b0efa3fd Uploaded zzhou parents: diff changeset	190 read.bin.maqmap.tags <- function(filename,read.tag.names=F,fix.chromosome.names=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	191 if(read.tag.names) { rtn <- as.integer(1); } else { rtn <- as.integer(0); };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	192 tl <- lapply(.Call("read_binmaqmap",filename,rtn),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	193 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	194 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	195 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	196 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	197 d$s <- d$s[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	198 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	199 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	200 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	201 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	202 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	203 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	204 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	205 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	206 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	207 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n),names=lapply(tl,function(d) d$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	208 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	209 return(list(tags=lapply(tl,function(d) d$t),quality=lapply(tl,function(d) d$n)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	210 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	211 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	212
ce08b0efa3fd Uploaded zzhou parents: diff changeset	213
ce08b0efa3fd Uploaded zzhou parents: diff changeset	214 # read in tags from an extended eland format with match length information
ce08b0efa3fd Uploaded zzhou parents: diff changeset	215 read.meland.tags <- function(filename,read.tag.names=F,fix.chromosome.names=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	216 if(read.tag.names) { rtn <- as.integer(1); } else { rtn <- as.integer(0); };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	217 tl <- lapply(.Call("read_meland",filename,rtn),function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	218 xo <- order(abs(d$t));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	219 d$t <- d$t[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	220 d$n <- d$n[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	221 d$l <- d$l[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	222 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	223 d$s <- d$s[xo];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	224 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	225 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	226 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	227
ce08b0efa3fd Uploaded zzhou parents: diff changeset	228 if(fix.chromosome.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	229 # remove ".fa"
ce08b0efa3fd Uploaded zzhou parents: diff changeset	230 names(tl) <- gsub("\\.fa","",names(tl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	231 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	232 # separate tags and quality
ce08b0efa3fd Uploaded zzhou parents: diff changeset	233 chrl <- names(tl); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	234 # reformulate quality scores into monotonic integers
ce08b0efa3fd Uploaded zzhou parents: diff changeset	235 ml <- max(unlist(lapply(tl,function(d) max(d$l))));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	236 qual <- lapply(chrl,function(chr) (ml-tl[[chr]]$l)+tl[[chr]]$n/10);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	237 if(read.tag.names) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	238 return(list(tags=lapply(tl,function(d) d$t),quality=qual,names=lapply(tl,function(d) d$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	239 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	240 return(list(tags=lapply(tl,function(d) d$t),quality=qual));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	241 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	242 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	243
ce08b0efa3fd Uploaded zzhou parents: diff changeset	244 # -------- ROUTINES FOR ASSESSING BINDING PATTERN AND SELECTING INFORMATIVE TAGS ------------
ce08b0efa3fd Uploaded zzhou parents: diff changeset	245
ce08b0efa3fd Uploaded zzhou parents: diff changeset	246 # removes tag positions that have anomalously high counts on both strands
ce08b0efa3fd Uploaded zzhou parents: diff changeset	247 # z - z-score used to determine anomalous bins
ce08b0efa3fd Uploaded zzhou parents: diff changeset	248 # zo - z used to filter out one-strand matches
ce08b0efa3fd Uploaded zzhou parents: diff changeset	249 # trim.fraction - fraction of top bins to discard when calculating overall background density
ce08b0efa3fd Uploaded zzhou parents: diff changeset	250 remove.tag.anomalies <- function(data, bin=1,trim.fraction=1e-3,z=5,zo=3*z) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	251
ce08b0efa3fd Uploaded zzhou parents: diff changeset	252 t.remove.tag.anomalies <- function(tv,bin=1,trim.fraction=1e-3,z=5,zo=3*z,return.indecies=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	253 tt <- table(floor(tv/bin));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	254
ce08b0efa3fd Uploaded zzhou parents: diff changeset	255 # trim value
ce08b0efa3fd Uploaded zzhou parents: diff changeset	256 stt <- sort(as.numeric(tt));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	257 stt <- stt[1:(length(stt)*(1-trim.fraction))];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	258 mtc <- mean(stt); tcd <- sqrt(var(stt));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	259
ce08b0efa3fd Uploaded zzhou parents: diff changeset	260 thr <- max(1,ceiling(mtc+z*tcd));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	261 thr.o <- max(1,ceiling(mtc+zo*tcd));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	262 # filter tt
ce08b0efa3fd Uploaded zzhou parents: diff changeset	263 tt <- tt[tt>=thr]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	264 # get + and - tags
ce08b0efa3fd Uploaded zzhou parents: diff changeset	265 tp <- as.numeric(names(tt));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	266 pti <- tp>0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	267 it <- intersect(tp[pti],(-1)*tp[!pti]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	268 # add one-strand matches
ce08b0efa3fd Uploaded zzhou parents: diff changeset	269 it <- unique(c(it,tp[tt>=thr.o]));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	270 sit <- c(it,(-1)*it);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	271
ce08b0efa3fd Uploaded zzhou parents: diff changeset	272 if(bin>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	273 sit <- sit*bin;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	274 sit <- c(sit,unlist(lapply(1:bin,function(i) sit+i)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	275 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	276 if(return.indecies) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	277 return(!tv %in% sit);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	278 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	279 return(tv[!tv %in% sit]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	280 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	281 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	282
ce08b0efa3fd Uploaded zzhou parents: diff changeset	283 vil <- lapply(data$tags,t.remove.tag.anomalies,return.indecies=T,bin=bin,trim.fraction=trim.fraction,z=z,zo=zo);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	284 chrl <- names(data$tags); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	285 data$tags <- lapply(chrl,function(chr) data$tags[[chr]][vil[[chr]]]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	286 # count tags to remove empty chromosomes
ce08b0efa3fd Uploaded zzhou parents: diff changeset	287 nt <- unlist(lapply(data$tags,length));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	288 if(any(nt==0)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	289 data$tags <- data$tags[nt!=0]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	290 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	291
ce08b0efa3fd Uploaded zzhou parents: diff changeset	292 if(!is.null(data$quality)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	293 data$quality <- lapply(chrl,function(chr) data$quality[[chr]][vil[[chr]]]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	294 data$quality <- data$quality[nt!=0];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	295 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	296 if(!is.null(data$names)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	297 data$names <- lapply(chrl,function(chr) data$names[[chr]][vil[[chr]]]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	298 data$names <- data$names[nt!=0];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	299 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	300
ce08b0efa3fd Uploaded zzhou parents: diff changeset	301 return(data);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	302 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	303
ce08b0efa3fd Uploaded zzhou parents: diff changeset	304 # caps or removes tag positions that are significantly higher than local background
ce08b0efa3fd Uploaded zzhou parents: diff changeset	305 remove.local.tag.anomalies <- function(tags,window.size=200,eliminate.fold=10,cap.fold=4,z.threshold=3) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	306 lapply(tags,filter.singular.positions.by.local.density,window.size=2e2,eliminate.fold=10,cap.fold=4,z.threshold=3);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	307 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	308
ce08b0efa3fd Uploaded zzhou parents: diff changeset	309
ce08b0efa3fd Uploaded zzhou parents: diff changeset	310
ce08b0efa3fd Uploaded zzhou parents: diff changeset	311 # assess strand cross-correlation, determine peak position, determine appropriate window size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	312 # for binding detection.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	313 get.binding.characteristics <- function(data,srange=c(50,500),bin=5,cluster=NULL,debug=F,min.tag.count=1e3,acceptance.z.score=3,remove.tag.anomalies=T,anomalies.z=5,accept.all.tags=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	314 if(remove.tag.anomalies) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	315 data <- remove.tag.anomalies(data,z=anomalies.z);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	316 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	317
ce08b0efa3fd Uploaded zzhou parents: diff changeset	318 # take highest quality tag bin
ce08b0efa3fd Uploaded zzhou parents: diff changeset	319 if(!is.null(data$quality) & !accept.all.tags) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	320 min.bin <- min(unlist(lapply(data$quality,min)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	321 chrl <- names(data$tags); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	322 otl <- lapply(chrl,function(chr) data$tags[[chr]][data$quality[[chr]]==min.bin]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	323 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	324 otl <- data$tags;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	325 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	326 # remove empty chromosomes
ce08b0efa3fd Uploaded zzhou parents: diff changeset	327 otl <- otl[unlist(lapply(otl,length))!=0];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	328
ce08b0efa3fd Uploaded zzhou parents: diff changeset	329
ce08b0efa3fd Uploaded zzhou parents: diff changeset	330 # calculate strand scc
ce08b0efa3fd Uploaded zzhou parents: diff changeset	331 if(!is.null(cluster)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	332 cc <- clusterApplyLB(cluster,otl,tag.scc,srange=srange,bin=bin);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	333 names(cc) <- names(otl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	334 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	335 cc <- lapply(otl,tag.scc,srange=srange,bin=bin);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	336 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	337 ccl<-list(sample=cc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	338 ccl.av <- lapply(names(ccl),t.plotavcc,type='l',ccl=ccl,return.ac=T,ttl=list(sample=otl),plot=F)[[1]]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	339 ccl.av <- data.frame(x=as.numeric(names(ccl.av)),y=as.numeric(ccl.av));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	340
ce08b0efa3fd Uploaded zzhou parents: diff changeset	341 # find peak
ce08b0efa3fd Uploaded zzhou parents: diff changeset	342 pi <- which.max(ccl.av$y);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	343
ce08b0efa3fd Uploaded zzhou parents: diff changeset	344 # determine width at third-height
ce08b0efa3fd Uploaded zzhou parents: diff changeset	345 th <- (ccl.av$y[pi]-ccl.av$y[length(ccl.av$y)])/3+ccl.av$y[length(ccl.av$y)]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	346 whs <- max(ccl.av$x[ccl.av$y>=th]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	347
ce08b0efa3fd Uploaded zzhou parents: diff changeset	348 if (! is.integer(whs)) { # Anshul: added this to avoid situations where whs ends up being -Inf
ce08b0efa3fd Uploaded zzhou parents: diff changeset	349 whs <- ccl.av$x[ min(c(2*pi,length(ccl.av$y))) ]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	350 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	351
ce08b0efa3fd Uploaded zzhou parents: diff changeset	352 # determine acceptance of different quality bins
ce08b0efa3fd Uploaded zzhou parents: diff changeset	353
ce08b0efa3fd Uploaded zzhou parents: diff changeset	354 # calculates tag scc for the best tags, and combinations of best tag category with every other category
ce08b0efa3fd Uploaded zzhou parents: diff changeset	355 # for subsequent selection of acceptable categories
ce08b0efa3fd Uploaded zzhou parents: diff changeset	356 scc.acceptance.calc <- function() {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	357
ce08b0efa3fd Uploaded zzhou parents: diff changeset	358 qr <- range(unlist(lapply(data$quality,range)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	359
ce08b0efa3fd Uploaded zzhou parents: diff changeset	360 # start with best tags
ce08b0efa3fd Uploaded zzhou parents: diff changeset	361
ce08b0efa3fd Uploaded zzhou parents: diff changeset	362 # determine half-width for scc calculations
ce08b0efa3fd Uploaded zzhou parents: diff changeset	363 pi <- which.max(ccl.av$y);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	364
ce08b0efa3fd Uploaded zzhou parents: diff changeset	365 # determine width at half-height
ce08b0efa3fd Uploaded zzhou parents: diff changeset	366 th <- (ccl.av$y[pi]-ccl.av$y[length(ccl.av$y)])/2+ccl.av$y[length(ccl.av$y)]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	367 lwhs <- max(ccl.av$x[ccl.av$y>=th])-ccl.av$x[pi];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	368 lwhs <- max(c(20,bin*10,lwhs));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	369 srange <- ccl.av$x[pi]+c(-lwhs,lwhs)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	370
ce08b0efa3fd Uploaded zzhou parents: diff changeset	371 # calculate chromosome-average scc
ce08b0efa3fd Uploaded zzhou parents: diff changeset	372 t.scc <- function(tags) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	373 if(is.null(cluster)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	374 cc <- lapply(tags,tag.scc,srange=srange,bin=bin);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	375 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	376 cc <- clusterApplyLB(cluster,tags,tag.scc,srange=srange,bin=bin); names(cc) <- names(tags);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	377 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	378 return(t.plotavcc(1,type='l',ccl=list(cc),ttl=list(tags),plot=F,return.ac=T))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	379 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	380
ce08b0efa3fd Uploaded zzhou parents: diff changeset	381
ce08b0efa3fd Uploaded zzhou parents: diff changeset	382 # returns info list for a given tag length (lv), mismatch count (nv)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	383 t.cat <- function(qual) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	384 # construct tag set
ce08b0efa3fd Uploaded zzhou parents: diff changeset	385 if(qual==qr[1]) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	386 ts <- otl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	387 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	388 nts <- names(otl); names(nts) <- nts;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	389 # select tags
ce08b0efa3fd Uploaded zzhou parents: diff changeset	390 at <- lapply(nts,function(chr) data$tags[[chr]][data$quality[[chr]]==qual]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	391 ntags <- sum(unlist(lapply(at,length)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	392 if(ntags<min.tag.count) { return(NULL); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	393
ce08b0efa3fd Uploaded zzhou parents: diff changeset	394 # append to otl
ce08b0efa3fd Uploaded zzhou parents: diff changeset	395 ts <- lapply(nts,function(nam) c(otl[[nam]],at[[nam]]));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	396 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	397
ce08b0efa3fd Uploaded zzhou parents: diff changeset	398 return(t.scc(ts));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	399 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	400
ce08b0efa3fd Uploaded zzhou parents: diff changeset	401
ce08b0efa3fd Uploaded zzhou parents: diff changeset	402 # calculate cross-correlation values for each quality bin
ce08b0efa3fd Uploaded zzhou parents: diff changeset	403 ql <- sort(unique(unlist(lapply(data$quality,unique)))); names(ql) <- ql;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	404
ce08b0efa3fd Uploaded zzhou parents: diff changeset	405 qccl <- lapply(ql,t.cat);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	406
ce08b0efa3fd Uploaded zzhou parents: diff changeset	407 # acceptance tests
ce08b0efa3fd Uploaded zzhou parents: diff changeset	408 ac <- c(T,unlist(lapply(qccl[-1],function(d) if(is.null(d)) { return(F) } else { t.test(d-qccl[[as.character(min.bin)]],alternative="greater")$p.value<pnorm(acceptance.z.score,lower.tail=F) }))); names(ac) <- names(qccl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	409 return(list(informative.bins=ac,quality.cc=qccl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	410 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	411
ce08b0efa3fd Uploaded zzhou parents: diff changeset	412 if(accept.all.tags \| is.null(data$quality)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	413 return(list(cross.correlation=ccl.av,peak=list(x=ccl.av$x[pi],y=ccl.av$y[pi]),whs=whs))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	414 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	415 acc <- scc.acceptance.calc();
ce08b0efa3fd Uploaded zzhou parents: diff changeset	416 return(list(cross.correlation=ccl.av,peak=list(x=ccl.av$x[pi],y=ccl.av$y[pi]),whs=whs,quality.bin.acceptance=acc));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	417 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	418
ce08b0efa3fd Uploaded zzhou parents: diff changeset	419 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	420
ce08b0efa3fd Uploaded zzhou parents: diff changeset	421
ce08b0efa3fd Uploaded zzhou parents: diff changeset	422 # select a set of informative tags based on the pre-calculated binding characteristics
ce08b0efa3fd Uploaded zzhou parents: diff changeset	423 select.informative.tags <- function(data,binding.characteristics=NULL) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	424 if(is.null(binding.characteristics)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	425 return(data$tags);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	426 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	427 if(is.null(binding.characteristics$quality.bin.acceptance)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	428 cat("binding characteristics doesn't contain quality selection info, accepting all tags\n");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	429 return(data$tags);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	430 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	431
ce08b0efa3fd Uploaded zzhou parents: diff changeset	432 ib <- binding.characteristics$quality.bin.acceptance$informative.bins;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	433 abn <- names(ib)[ib]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	434
ce08b0efa3fd Uploaded zzhou parents: diff changeset	435 chrl <- names(data$tags); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	436 lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	437 data$tags[[chr]][as.character(data$quality[[chr]]) %in% abn]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	438 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	439 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	440
ce08b0efa3fd Uploaded zzhou parents: diff changeset	441 # -------- ROUTINES FOR CALLING BINDING POSITIONS ------------
ce08b0efa3fd Uploaded zzhou parents: diff changeset	442
ce08b0efa3fd Uploaded zzhou parents: diff changeset	443 # determine binding positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	444 # signal.data - IP tag lists
ce08b0efa3fd Uploaded zzhou parents: diff changeset	445 # control.data - input tag lists
ce08b0efa3fd Uploaded zzhou parents: diff changeset	446 # e.value - desired E-value threshold (either E-value or FDR threshold must be provided)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	447 # fdr - desired FDR threshold
ce08b0efa3fd Uploaded zzhou parents: diff changeset	448 # min.dist - minimal distance between detected positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	449 # tag.count.whs - size of the window to be used to estimate confidence interval of the peak fold enrichment ratios
ce08b0efa3fd Uploaded zzhou parents: diff changeset	450 # enrichmnent.z - Z-score defining the desired confidence level for enrichment interval estimates
ce08b0efa3fd Uploaded zzhou parents: diff changeset	451 # enrichment.background.scales - define how many tiems larger should be the window for estimating background
ce08b0efa3fd Uploaded zzhou parents: diff changeset	452 # tag density when evaluating peak enrichment confidence intervals.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	453 # If multiple values are given, multiple independent interval estimates will be
ce08b0efa3fd Uploaded zzhou parents: diff changeset	454 # calculated.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	455 # tec.filter - whether to mask out the regions that exhibit significant background enrichment
ce08b0efa3fd Uploaded zzhou parents: diff changeset	456 # tec.window.size, tec.z - window size and Z-score for maksing out significant background enrichment regions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	457 #
ce08b0efa3fd Uploaded zzhou parents: diff changeset	458 # If the control.data is not provided, the method will assess significance of the determined binding positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	459 # based on the randomizations of the original data. The following paramters control such randomizations:
ce08b0efa3fd Uploaded zzhou parents: diff changeset	460 # n.randomizations - number of randomizations to be performed
ce08b0efa3fd Uploaded zzhou parents: diff changeset	461 # shuffle.window - size of the bin that defines the tags that are kept together during randomization.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	462 # value of 0 means that all tags are shuffled independently
ce08b0efa3fd Uploaded zzhou parents: diff changeset	463 #
ce08b0efa3fd Uploaded zzhou parents: diff changeset	464 # Binding detection methods:
ce08b0efa3fd Uploaded zzhou parents: diff changeset	465 # tag.wtd - default method.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	466 # must specify parameter "whs", which is the half-size of the window used to calculate binding scores
ce08b0efa3fd Uploaded zzhou parents: diff changeset	467 # tag.lwcc - LWCC method;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	468 # must specify whs - a size of the window used to calculate binding scores
ce08b0efa3fd Uploaded zzhou parents: diff changeset	469 # can specify isize (default=15bp) - size of the internal window that is masked out
ce08b0efa3fd Uploaded zzhou parents: diff changeset	470 find.binding.positions <- function(signal.data,f=1,e.value=NULL,fdr=NULL, masked.data=NULL,control.data=NULL,whs=200,min.dist=200,window.size=4e7,cluster=NULL,debug=T,n.randomizations=3,shuffle.window=1,min.thr=2,topN=NULL, tag.count.whs=100, enrichment.z=2, method=tag.wtd, tec.filter=T,tec.window.size=1e4,tec.z=5,tec.masking.window.size=tec.window.size, tec.poisson.z=5,tec.poisson.ratio=5, tec=NULL, n.control.samples=1, enrichment.scale.down.control=F, enrichment.background.scales=c(1,5,10), use.randomized.controls=F, background.density.scaling=T, mle.filter=F, min.mle.threshold=1, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	471
ce08b0efa3fd Uploaded zzhou parents: diff changeset	472 if(f<1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	473 if(debug) { cat("subsampling signal ... "); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	474 signal.data <- lapply(signal.data,function(x) sample(x,length(x)*f))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	475 if(debug) { cat("done\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	476 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	477
ce08b0efa3fd Uploaded zzhou parents: diff changeset	478
ce08b0efa3fd Uploaded zzhou parents: diff changeset	479 if(!is.null(control.data) & !use.randomized.controls) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	480 # limit both control and signal data to a common set of chromosomes
ce08b0efa3fd Uploaded zzhou parents: diff changeset	481 chrl <- intersect(names(signal.data),names(control.data));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	482 signal.data <- signal.data[chrl];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	483 control.data <- control.data[chrl];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	484 control <- list(control.data);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	485 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	486 control <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	487 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	488
ce08b0efa3fd Uploaded zzhou parents: diff changeset	489 prd <- lwcc.prediction(signal.data,min.dist=min.dist,whs=whs,window.size=window.size,e.value=e.value,fdr=fdr,debug=debug,n.randomizations=n.randomizations,shuffle.window=shuffle.window,min.thr=min.thr,cluster=cluster,method=method,bg.tl=control.data,mask.tl=masked.data, topN=topN, control=control,tec.filter=tec.filter,tec.z=tec.z,tec.window.size=tec.window.size, tec.masking.window.size=tec.masking.window.size, tec.poisson.z=tec.poisson.z,tec.poisson.ratio=tec.poisson.ratio, background.density.scaling=background.density.scaling, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	490
ce08b0efa3fd Uploaded zzhou parents: diff changeset	491 # add tag counts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	492 chrl <- names(prd$npl); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	493 prd$npl <- lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	494 pd <- prd$npl[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	495 pd$nt <- points.within(abs(signal.data[[chr]]),pd$x-tag.count.whs,pd$x+tag.count.whs,return.point.counts=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	496 return(pd);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	497 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	498 prd$f <- f;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	499 prd$n <- sum(unlist(lapply(signal.data,length)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	500 if(!is.null(control.data)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	501 prd$n.bg <- sum(unlist(lapply(control.data,length)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	502 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	503
ce08b0efa3fd Uploaded zzhou parents: diff changeset	504 # calculate enrichment ratios
ce08b0efa3fd Uploaded zzhou parents: diff changeset	505 prd <- calculate.enrichment.estimates(prd,signal.data,control.data=control.data,fraction=1,tag.count.whs=tag.count.whs,z=enrichment.z,scale.down.control=enrichment.scale.down.control,background.scales=enrichment.background.scales);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	506
ce08b0efa3fd Uploaded zzhou parents: diff changeset	507 if(mle.filter) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	508 if(!is.null(prd$npl)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	509 if(length(prd$npl)>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	510 mle.columns <- grep("enr.mle",colnames(prd$npl[[1]]));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	511 if(length(mle.columns)>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	512 prd$npl <- lapply(prd$npl,function(d) d[apply(d[,mle.columns],1,function(x) all(x>min.mle.threshold)),])
ce08b0efa3fd Uploaded zzhou parents: diff changeset	513 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	514 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	515 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	516 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	517
ce08b0efa3fd Uploaded zzhou parents: diff changeset	518 prd$whs <- whs;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	519
ce08b0efa3fd Uploaded zzhou parents: diff changeset	520 return(prd);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	521 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	522
ce08b0efa3fd Uploaded zzhou parents: diff changeset	523
ce08b0efa3fd Uploaded zzhou parents: diff changeset	524
ce08b0efa3fd Uploaded zzhou parents: diff changeset	525 # -------- ROUTINES FOR WRITING OUT TAG DENSITY AND ENRICHMENT PROFILES ------------
ce08b0efa3fd Uploaded zzhou parents: diff changeset	526 # calculate smoothed tag density, optionally subtracting the background
ce08b0efa3fd Uploaded zzhou parents: diff changeset	527 get.smoothed.tag.density <- function(signal.tags,control.tags=NULL,bandwidth=150,bg.weight=NULL,tag.shift=146/2,step=round(bandwidth/3),background.density.scaling=T,rngl=NULL,scale.by.dataset.size=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	528 chrl <- names(signal.tags); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	529
ce08b0efa3fd Uploaded zzhou parents: diff changeset	530 if(!is.null(control.tags)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	531 bg.weight <- dataset.density.ratio(signal.tags,control.tags,background.density.scaling=background.density.scaling);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	532 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	533
ce08b0efa3fd Uploaded zzhou parents: diff changeset	534 if(scale.by.dataset.size) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	535 den.scaling <- dataset.density.size(signal.tags,background.density.scaling=background.density.scaling)/1e6;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	536 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	537 den.scaling <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	538 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	539
ce08b0efa3fd Uploaded zzhou parents: diff changeset	540 lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	541 ad <- abs(signal.tags[[chr]]+tag.shift);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	542 rng <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	543 if(!is.null(rngl)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	544 rng <- rngl[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	545 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	546 if(is.null(rng)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	547 rng <- range(ad);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	548 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	549
ce08b0efa3fd Uploaded zzhou parents: diff changeset	550 ds <- densum(ad,bw=bandwidth,from=rng[1],to=rng[2],return.x=T,step=step);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	551 if(!is.null(control.tags)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	552 if(!is.null(control.tags[[chr]])) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	553 bsd <- densum(abs(control.tags[[chr]]+tag.shift),bw=bandwidth,from=rng[1],to=rng[2],return.x=F,step=step);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	554 ds$y <- ds$y-bsd*bg.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	555 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	556 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	557 return(data.frame(x=seq(ds$x[1],ds$x[2],by=step),y=den.scaling*ds$y))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	558 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	559 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	560
ce08b0efa3fd Uploaded zzhou parents: diff changeset	561 # get smoothed maximum likelihood estimate of the log2 signal to control enrichment ratio
ce08b0efa3fd Uploaded zzhou parents: diff changeset	562 get.smoothed.enrichment.mle <- function(signal.tags, control.tags, tag.shift=146/2, background.density.scaling=F, pseudocount=1,bg.weight=NULL, ... ) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	563 # determine common range
ce08b0efa3fd Uploaded zzhou parents: diff changeset	564 chrl <- intersect(names(signal.tags),names(control.tags)); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	565 rngl <- lapply(chrl,function(chr) range(c(range(abs(signal.tags[[chr]]+tag.shift)),range(abs(control.tags[[chr]]+tag.shift)))))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	566 ssd <- get.smoothed.tag.density(signal.tags, rngl=rngl, ..., scale.by.dataset.size=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	567 csd <- get.smoothed.tag.density(control.tags, rngl=rngl, ..., scale.by.dataset.size=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	568 if(is.null(bg.weight)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	569 bg.weight <- dataset.density.ratio(signal.tags,control.tags,background.density.scaling=background.density.scaling);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	570 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	571 cmle <- lapply(chrl,function(chr) { d <- ssd[[chr]]; d$y <- log2(d$y+pseudocount) - log2(csd[[chr]]$y+pseudocount) - log2(bg.weight); return(d); })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	572 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	573
ce08b0efa3fd Uploaded zzhou parents: diff changeset	574
ce08b0efa3fd Uploaded zzhou parents: diff changeset	575 # returns a conservative upper/lower bound profile (log2) given signal tag list, background tag list and window scales
ce08b0efa3fd Uploaded zzhou parents: diff changeset	576 get.conservative.fold.enrichment.profile <- function(ftl,btl,fws,bwsl=c(1,5,25,50)*fws,step=50,tag.shift=146/2,alpha=0.05,use.most.informative.scale=F,quick.calculation=T,background.density.scaling=T,bg.weight=NULL,posl=NULL,return.mle=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	577 # include only chromosomes with more than 2 reads
ce08b0efa3fd Uploaded zzhou parents: diff changeset	578 ftl <- ftl[unlist(lapply(ftl,length))>2]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	579 chrl <- names(ftl); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	580 if(!is.null(posl)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	581 chrl <- chrl[chrl %in% names(posl)];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	582 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	583 # calculate background tag ratio
ce08b0efa3fd Uploaded zzhou parents: diff changeset	584 if(is.null(bg.weight)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	585 bg.weight <- dataset.density.ratio(ftl,btl,background.density.scaling=background.density.scaling);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	586 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	587 lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	588 if(is.null(btl[[chr]])) { bt <- c(); } else { bt <- abs(btl[[chr]]+tag.shift); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	589 if(is.null(posl)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	590 x <- mbs.enrichment.bounds(abs(ftl[[chr]]+tag.shift),bt,fws=fws,bwsl=bwsl,step=step,calculate.upper.bound=T,bg.weight=bg.weight,use.most.informative.scale=use.most.informative.scale,quick.calculation=quick.calculation,alpha=alpha);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	591 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	592 x <- mbs.enrichment.bounds(abs(ftl[[chr]]+tag.shift),bt,fws=fws,bwsl=bwsl,step=step,calculate.upper.bound=T,bg.weight=bg.weight,use.most.informative.scale=use.most.informative.scale,quick.calculation=quick.calculation,alpha=alpha,pos=posl[[chr]]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	593 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	594 # compose profile showing lower bound for enriched, upper bound for depleted regions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	595 ps <- rep(1,length(x$mle));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	596 vi <- which(!is.na(x$lb) & x$lb>1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	597 ps[vi] <- x$lb[vi];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	598 vi <- which(!is.na(x$ub) & x$ub<1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	599 ps[vi] <- x$ub[vi];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	600 ps <- log2(ps);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	601 if(is.null(posl)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	602 if(return.mle) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	603 return(data.frame(x=seq(x$x$s,x$x$e,by=x$x$step),y=ps,mle=log2(x$mle),lb=log2(x$lb),ub=log2(x$ub)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	604 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	605 return(data.frame(x=seq(x$x$s,x$x$e,by=x$x$step),y=ps));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	606 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	607 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	608 if(return.mle) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	609 return(data.frame(x=posl[[chr]],y=ps,mle=log2(x$mle),lb=log2(x$lb),ub=log2(x$ub)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	610 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	611 return(data.frame(x=posl[[chr]],y=ps));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	612 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	613 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	614 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	615 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	616
ce08b0efa3fd Uploaded zzhou parents: diff changeset	617
ce08b0efa3fd Uploaded zzhou parents: diff changeset	618 # write a per-chromosome $x/$y data structure into a wig file
ce08b0efa3fd Uploaded zzhou parents: diff changeset	619 writewig <- function(dat,fname,feature,threshold=5,zip=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	620 chrl <- names(dat); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	621 invisible(lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	622 bdiff <- dat[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	623 ind <- seq(1,length(bdiff$x));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	624 ind <- ind[!is.na(bdiff$y[ind])];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	625 header <- chr==chrl[1];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	626 write.probe.wig(chr,bdiff$x[ind],bdiff$y[ind],fname,append=!header,feature=feature,header=header);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	627 }))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	628 if(zip) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	629 zf <- paste(fname,"zip",sep=".");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	630 system(paste("zip \"",zf,"\" \"",fname,"\"",sep=""));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	631 system(paste("rm \"",fname,"\"",sep=""));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	632 return(zf);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	633 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	634 return(fname);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	635 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	636 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	637
ce08b0efa3fd Uploaded zzhou parents: diff changeset	638
ce08b0efa3fd Uploaded zzhou parents: diff changeset	639
ce08b0efa3fd Uploaded zzhou parents: diff changeset	640 # -------- ROUTINES FOR ANALYZING SATURATION PROPERTIES ------------
ce08b0efa3fd Uploaded zzhou parents: diff changeset	641
ce08b0efa3fd Uploaded zzhou parents: diff changeset	642 # PUBLIC
ce08b0efa3fd Uploaded zzhou parents: diff changeset	643 # calculate minimal saturation enrichment ratios (MSER)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	644 get.mser <- function(signal.data,control.data,n.chains=5,step.size=1e5, chains=NULL, cluster=NULL, test.agreement=0.99, return.chains=F, enrichment.background.scales=c(1), n.steps=1, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	645 if(is.null(chains)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	646 ci <- c(1:n.chains); names(ci) <- ci;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	647 if(is.null(cluster)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	648 chains <- lapply(ci,get.subsample.chain.calls,signal.data=signal.data,control.data=control.data,n.steps=n.steps,step.size=step.size,subsample.control=F, enrichment.background.scales=enrichment.background.scales, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	649 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	650 chains <- clusterApplyLB(cluster,ci,get.subsample.chain.calls,signal.data=signal.data,control.data=control.data,n.steps=n.steps,step.size=step.size,subsample.control=F, enrichment.background.scales=enrichment.background.scales, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	651 names(chains) <- ci;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	652 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	653 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	654 cvl <- mser.chain.interpolation(chains=chains,enrichment.background.scales=enrichment.background.scales,test.agreement=test.agreement,return.lists=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	655 if(n.steps>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	656 msers <- cvl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	657 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	658 msers <- unlist(lapply(cvl,function(d) d$me))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	659 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	660 if(return.chains) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	661 return(list(mser=msers,chains=chains));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	662 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	663 return(msers);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	664 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	665 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	666
ce08b0efa3fd Uploaded zzhou parents: diff changeset	667 # PUBLIC
ce08b0efa3fd Uploaded zzhou parents: diff changeset	668 # interpolate MSER dependency on tag counts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	669 get.mser.interpolation <- function(signal.data,control.data,target.fold.enrichment=5,n.chains=10,n.steps=6,step.size=1e5, chains=NULL, test.agreement=0.99, return.chains=F, enrichment.background.scales=c(1), excluded.steps=c(seq(2,n.steps-2)), ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	670 msers <- get.mser(signal.data,control.data,n.chains=n.chains,n.steps=n.steps,step.size=step.size,chains=chains,test.agrement=test.agreement,return.chains=T,enrichment.background.scales=enrichment.background.scales,excluded.steps=excluded.steps, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	671
ce08b0efa3fd Uploaded zzhou parents: diff changeset	672 # adjust sizes in case a subset of chromosomes was used
ce08b0efa3fd Uploaded zzhou parents: diff changeset	673 mser <- mser.chain.interpolation(chains=msers$chains,enrichment.background.scales=enrichment.background.scales,test.agreement=test.agreement,return.lists=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	674 sr <- sum(unlist(lapply(signal.data,length)))/mser[[1]][[1]]$n[1];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	675
ce08b0efa3fd Uploaded zzhou parents: diff changeset	676 # Subsampling each chain requires removing a fraction of each chromosome's
ce08b0efa3fd Uploaded zzhou parents: diff changeset	677 # tag list. To get the exact step.size, this often leaves chromosomes with
ce08b0efa3fd Uploaded zzhou parents: diff changeset	678 # a non-integer number of tags. The non-integer values are floored, so each
ce08b0efa3fd Uploaded zzhou parents: diff changeset	679 # chr can contribute at most 0.999.. <= 1 error to the step.size.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	680 floor.error <- length(msers$chains[[1]][[1]]$npl)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	681 intpn <- lapply(mser,function(ms) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	682 lmvo <- do.call(rbind,ms)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	683 lmvo$n <- lmvo$n*sr;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	684 # Don't select rows corresponding to excluded.steps
ce08b0efa3fd Uploaded zzhou parents: diff changeset	685 # Keep in mind that nd values are negative.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	686 lmvo <- lmvo[lmvo$nd <= (lmvo$nd[1] + floor.error) & lmvo$nd >= (lmvo$nd[1] - floor.error),];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	687 lmvo <- na.omit(lmvo);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	688 if(any(lmvo$me==1)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	689 return(list(prediction=NA));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	690 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	691 lmvo$n <- log10(lmvo$n); lmvo$me <- log10(lmvo$me-1)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	692 # remove non-standard steps
ce08b0efa3fd Uploaded zzhou parents: diff changeset	693 emvf <- lm(me ~ n,data=lmvo);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	694 tfe <- (log10(target.fold.enrichment-1)-coef(emvf)[[1]])/coef(emvf)[[2]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	695 tfen <- 10^tfe;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	696 return(list(prediction=tfen,log10.fit=emvf));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	697 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	698
ce08b0efa3fd Uploaded zzhou parents: diff changeset	699 if(return.chains) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	700 return(list(interpolation=intpn,chains=msers$chains))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	701 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	702 return(intpn);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	703 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	704
ce08b0efa3fd Uploaded zzhou parents: diff changeset	705 return(msers);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	706
ce08b0efa3fd Uploaded zzhou parents: diff changeset	707 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	708
ce08b0efa3fd Uploaded zzhou parents: diff changeset	709
ce08b0efa3fd Uploaded zzhou parents: diff changeset	710 # output binding detection results to a text file
ce08b0efa3fd Uploaded zzhou parents: diff changeset	711 # the file will contain a table with each row corresponding
ce08b0efa3fd Uploaded zzhou parents: diff changeset	712 # to a detected position, with the following columns:
ce08b0efa3fd Uploaded zzhou parents: diff changeset	713 # chr - chromosome or target sequence
ce08b0efa3fd Uploaded zzhou parents: diff changeset	714 # pos - position of detected binding site on the chromosome/sequence
ce08b0efa3fd Uploaded zzhou parents: diff changeset	715 # score - a score reflecting magnitude of the binding
ce08b0efa3fd Uploaded zzhou parents: diff changeset	716 # Evalue - E-value corresponding to the peak magnitude
ce08b0efa3fd Uploaded zzhou parents: diff changeset	717 # FDR - FDR corresponding to the peak magnitude
ce08b0efa3fd Uploaded zzhou parents: diff changeset	718 # enrichment.lb - lower bound of the fold-enrichment ratio
ce08b0efa3fd Uploaded zzhou parents: diff changeset	719 # enrichment.mle - maximum likelihood estimate of the fold-enrichment ratio
ce08b0efa3fd Uploaded zzhou parents: diff changeset	720 output.binding.results <- function(results,filename) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	721 write(file=filename,"chr\tpos\tscore\tEvalue\tFDR\tenrichment.lb\tenrichment.mle",append=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	722 chrl <- names(results$npl); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	723 x <- lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	724 d <- results$npl[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	725 if(dim(d)[1]>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	726 if(results$thr$type=="topN") {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	727 od <- cbind(rep(chr,dim(d)[1]),subset(d,select=c(x,y,enr,enr.mle)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	728 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	729 od <- cbind(rep(chr,dim(d)[1]),subset(d,select=c(x,y,evalue,fdr,enr,enr.mle)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	730 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	731 write.table(od,file=filename,col.names=F,row.names=F,sep="\t",append=T,quote=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	732 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	733 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	734 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	735
ce08b0efa3fd Uploaded zzhou parents: diff changeset	736
ce08b0efa3fd Uploaded zzhou parents: diff changeset	737 # -------- LOW-LEVEL ROUTINES ------------
ce08b0efa3fd Uploaded zzhou parents: diff changeset	738
ce08b0efa3fd Uploaded zzhou parents: diff changeset	739 # calculates tag strand cross-correlation for a range of shifts (on positive strand)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	740 tag.scc <- function(tags,srange=c(50,250),bin=1,tt=NULL,llim=10) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	741 if(is.null(tt)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	742 tt <- table(sign(tags)*as.integer(floor(abs(tags)/bin+0.5)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	743 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	744 if(!is.null(llim)) { l <- mean(tt); tt <- tt[tt<llim*l] }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	745 tc <- as.integer(names(tt));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	746 tt <- as.numeric(tt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	747
ce08b0efa3fd Uploaded zzhou parents: diff changeset	748 pv <- tt; pv[tc<0]<-0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	749 nv <- tt; nv[tc>0]<-0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	750
ce08b0efa3fd Uploaded zzhou parents: diff changeset	751 pti <- which(tc>0)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	752 nti <- which(tc<0);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	753
ce08b0efa3fd Uploaded zzhou parents: diff changeset	754 ptc <- tc[pti];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	755 ntc <- (-1)*tc[nti];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	756
ce08b0efa3fd Uploaded zzhou parents: diff changeset	757 ptv <- tt[pti];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	758 ntv <- tt[nti];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	759
ce08b0efa3fd Uploaded zzhou parents: diff changeset	760 trng <- range(c(range(ptc),range(ntc)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	761 l <- diff(trng)+1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	762 rm(tc,tt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	763
ce08b0efa3fd Uploaded zzhou parents: diff changeset	764 mp <- sum(ptv)bin/l; mn <- sum(ntv)bin/l;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	765 ptv <- ptv-mp; ntv <- ntv-mn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	766 ss <- sqrt((sum(ptvptv)+(l-length(ptv))mp^2) * (sum(ntvntv)+(l-length(ntv))mn^2));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	767
ce08b0efa3fd Uploaded zzhou parents: diff changeset	768 t.cor <- function(s) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	769 smi <- match(ptc+s,ntc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	770 return((sum(ptv[!is.na(smi)]*ntv[na.omit(smi)]) -
ce08b0efa3fd Uploaded zzhou parents: diff changeset	771 mn*sum(ptv[is.na(smi)]) -
ce08b0efa3fd Uploaded zzhou parents: diff changeset	772 mp*sum(ntv[-na.omit(smi)]) +
ce08b0efa3fd Uploaded zzhou parents: diff changeset	773 mpmn(l-length(ptv)-length(ntv)+length(which(!is.na(smi)))))/ss);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	774 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	775 shifts <- floor(seq(srange[1],srange[2],by=bin)/bin+0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	776 scc <- unlist(lapply(shifts,t.cor)); names(scc) <- shifts*bin;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	777 return(scc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	778 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	779
ce08b0efa3fd Uploaded zzhou parents: diff changeset	780
ce08b0efa3fd Uploaded zzhou parents: diff changeset	781 # plot tag cross-correlation
ce08b0efa3fd Uploaded zzhou parents: diff changeset	782 t.plotcc <- function(ac, lab=c(10,5,7), ylab="correlation", xlab="lag", pch=19, grid.i=c(-5:5), grid.s=10, type='b', plot.grid=F, cols=c(1,2,4,"orange",8,"pink"), min.peak.x=NULL, xlim=NULL, plot.147=F, plot.max=T, rmw=1, rescale=F, legendx="right", ltys=rep(1,length(ac)), ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	783 if(is.list(ac)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	784 cols <- cols[1:length(ac)];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	785
ce08b0efa3fd Uploaded zzhou parents: diff changeset	786 if(!is.null(xlim)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	787 vx <- as.numeric(names(ac[[1]])); vx <- which(vx>=xlim[1] & vx<=xlim[2]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	788 ac[[1]] <- (ac[[1]])[vx];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	789 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	790 xlim <- range(as.numeric(names(ac[[1]])));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	791 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	792
ce08b0efa3fd Uploaded zzhou parents: diff changeset	793
ce08b0efa3fd Uploaded zzhou parents: diff changeset	794 plot(as.numeric(names(ac[[1]])),runmean(ac[[1]],rmw),type=type,pch=pch,xlab=xlab,ylab=ylab,lab=lab, col=cols[1], xlim=xlim, lty=ltys[1], ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	795 if(length(ac)>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	796 for(i in seq(2,length(ac))) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	797 irng <- range(ac[[i]]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	798 vx <- as.numeric(names(ac[[i]])); vx <- which(vx>=xlim[1] & vx<=xlim[2]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	799 if(rescale) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	800 lines(as.numeric(names(ac[[i]])[vx]),runmean((ac[[i]][vx]-irng[1])/diff(irng)*diff(range(ac[[1]]))+min(ac[[1]]),rmw),col=cols[i],lty=ltys[i]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	801 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	802 lines(as.numeric(names(ac[[i]]))[vx],runmean(ac[[i]][vx],rmw),col=cols[i],lty=ltys[i]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	803 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	804 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	805 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	806 if(is.null(min.peak.x)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	807 m <- as.numeric(names(ac[[1]])[which.max(ac[[1]])]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	808 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	809 sac <- (ac[[1]])[which(as.numeric(names(ac[[1]]))>min.peak.x)]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	810 m <- as.numeric(names(sac)[which.max(sac)]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	811 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	812 legend(x="topright",bty="n",legend=c(names(ac)),col=cols,lty=ltys)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	813 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	814 if(!is.null(xlim)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	815 vx <- as.numeric(names(ac));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	816 vx <- which(vx>=xlim[1] & vx<=xlim[2]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	817 ac <- ac[vx];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	818 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	819 xlim <- range(as.numeric(names(ac)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	820 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	821
ce08b0efa3fd Uploaded zzhou parents: diff changeset	822 plot(names(ac),runmean(ac,rmw),type=type,pch=pch,xlab=xlab,ylab=ylab,lab=lab, xlim=xlim, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	823 if(is.null(min.peak.x)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	824 m <- as.numeric(names(ac)[which.max(ac)]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	825 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	826 sac <- ac[which(names(ac)>min.peak.x)]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	827 m <- as.numeric(names(sac)[which.max(sac)]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	828 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	829 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	830 if(plot.147) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	831 abline(v=147,lty=2,col=8);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	832 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	833 if(plot.grid) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	834 abline(v=m+grid.i*grid.s,lty=3,col="pink");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	835 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	836 if(plot.max) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	837 abline(v=m,lty=2,col=2);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	838 legend(x=legendx,bty="n",legend=c(paste("max at ",m,"bp",sep="")));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	839 return(m);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	840 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	841 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	842
ce08b0efa3fd Uploaded zzhou parents: diff changeset	843 # plot chromosome-acerage cross-correlation
ce08b0efa3fd Uploaded zzhou parents: diff changeset	844 t.plotavcc <- function(ci, main=paste(ci,"chromosome average"), ccl=tl.cc, return.ac=F, ttl=tl, plot=T, ... ) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	845 cc <- ccl[[ci]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	846 if(length(cc)==1) { return(cc[[1]]) };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	847 if(length(cc)==0) { return(c()) };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	848 ac <- do.call(rbind,cc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	849 # omit NA chromosomes
ce08b0efa3fd Uploaded zzhou parents: diff changeset	850 ina <- apply(ac,1,function(d) any(is.na(d)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	851
ce08b0efa3fd Uploaded zzhou parents: diff changeset	852 tags <- ttl[[ci]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	853 avw <- unlist(lapply(tags,length)); avw <- avw/sum(avw);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	854 ac <- ac[!ina,]; avw <- avw[!ina];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	855 ac <- apply(ac,2,function(x) sum(x*avw));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	856 if(plot) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	857 m <- t.plotcc(ac, main=main, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	858 if(!return.ac) { return(m) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	859 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	860 if(return.ac) { return(ac) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	861 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	862
ce08b0efa3fd Uploaded zzhou parents: diff changeset	863 t.plotchrcc <- function(ci,ncol=4, ccl=tl.cc, ... ) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	864 cc <- ccl[[ci]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	865 ac <- do.call(rbind,cc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	866 par(mfrow = c(length(cc)/ncol,ncol), mar = c(3.5,3.5,2.0,0.5), mgp = c(2,0.65,0), cex = 0.8)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	867 lapply(names(cc),function(ch) { t.plotcc(cc[[ch]],main=paste(ci,": chr",ch,sep=""), ...) })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	868 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	869
ce08b0efa3fd Uploaded zzhou parents: diff changeset	870 t.plotavccl <- function(ci, ccl=tl.ccl, main=paste(ci,"chromosome average"), rtl=tl, ... ) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	871 #cc <- lapply(ccl[[ci]],function(x) { if(!is.null(x$M)) { x$M <- NULL;}; return(x); });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	872 cc <- ccl[[ci]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	873 chrs <- names(cc[[1]]); names(chrs) <- chrs;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	874 acl <- lapply(cc,function(x) do.call(rbind,x));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	875 tags <- rtl[[ci]][chrs];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	876 avw <- unlist(lapply(tags,length)); avw <- avw/sum(avw);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	877 acl <- lapply(acl,function(ac) apply(ac,2,function(x) sum(x*avw)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	878 t.plotcc(acl, main=main, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	879 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	880
ce08b0efa3fd Uploaded zzhou parents: diff changeset	881 t.plotchrccl <- function(ci,ccl=tl.ccl,ncol=4, ... ) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	882 par(mfrow = c(length(cc[[1]])/ncol,ncol), mar = c(3.5,3.5,2.0,0.5), mgp = c(2,0.65,0), cex = 0.8)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	883 lapply(names(cc[[1]]),function(ch) { t.plotcc(lapply(cc,function(x) x[[ch]]),main=paste(ci,": chr",ch,sep=""), ...) })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	884 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	885
ce08b0efa3fd Uploaded zzhou parents: diff changeset	886
ce08b0efa3fd Uploaded zzhou parents: diff changeset	887
ce08b0efa3fd Uploaded zzhou parents: diff changeset	888 show.scc <- function(tl,srange,cluster=NULL) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	889 if(!is.null(cluster)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	890 cc <- clusterApplyLB(cluster,tl,tag.scc,srange=srange);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	891 names(cc) <- names(tl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	892 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	893 cc <- lapply(tl,tag.scc,srange=srange);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	894 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	895 par(mfrow = c(1,1), mar = c(3.5,3.5,2.0,0.5), mgp = c(2,0.65,0), cex = 0.8);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	896 ccl<-list(sample=cc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	897 ccl.av <- lapply(names(ccl),t.plotavcc,type='l',ccl=ccl,xlim=srange,return.ac=F,ttl=list(sample=tl),main="")[[1]]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	898 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	899
ce08b0efa3fd Uploaded zzhou parents: diff changeset	900 # find regions of significant tag enrichment
ce08b0efa3fd Uploaded zzhou parents: diff changeset	901 find.significantly.enriched.regions <- function(signal.data,control.data,window.size=500,multiplier=1,z.thr=3,mcs=0,debug=F,background.density.scaling=T,masking.window.size=window.size,poisson.z=0,poisson.ratio=4,either=F,tag.shift=146/2,bg.weight=NULL) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	902 if(is.null(bg.weight)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	903 bg.weight <- dataset.density.ratio(signal.data,control.data,background.density.scaling=background.density.scaling);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	904 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	905
ce08b0efa3fd Uploaded zzhou parents: diff changeset	906 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	907 cat("bg.weight=",bg.weight,"\n");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	908 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	909 chrl <- names(signal.data); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	910 tec <- lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	911 d <- tag.enrichment.clusters(signal.data[[chr]],control.data[[chr]],bg.weight=bg.weight*multiplier,thr=z.thr,wsize=window.size,mcs=mcs,min.tag.count.z=poisson.z,min.tag.count.ratio=poisson.ratio,either=either,tag.shift=tag.shift);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	912 d$s <- d$s-masking.window.size/2; d$e <- d$e+masking.window.size/2;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	913 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	914 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	915 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	916
ce08b0efa3fd Uploaded zzhou parents: diff changeset	917
ce08b0efa3fd Uploaded zzhou parents: diff changeset	918 # given tag position vectors, find contigs of significant enrichment of signal over background
ce08b0efa3fd Uploaded zzhou parents: diff changeset	919 # thr - z score threshold
ce08b0efa3fd Uploaded zzhou parents: diff changeset	920 # mcs - minimal cluster size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	921 # bg.weight - fraction by which background counts should be multipled
ce08b0efa3fd Uploaded zzhou parents: diff changeset	922 # min.tag.count.z will impose a poisson constraint based on randomized signal in parallel of background constaint (0 - no constraint)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	923 tag.enrichment.clusters <- function(signal,background,wsize=200,thr=3,mcs=1,bg.weight=1,min.tag.count.z=0,tag.av.den=NULL,min.tag.count.thr=0,min.tag.count.ratio=4,either=F,tag.shift=146/2) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	924 if(is.null(tag.av.den)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	925 tag.av.den <- length(signal)/diff(range(abs(signal)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	926 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	927 if(min.tag.count.z>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	928 min.tag.count.thr <- qpois(pnorm(min.tag.count.z,lower.tail=F),min.tag.count.ratiotag.av.denwsize,lower.tail=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	929 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	930 min.tag.count.thr <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	931 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	932
ce08b0efa3fd Uploaded zzhou parents: diff changeset	933 #if(bg.weight!=1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	934 # background <- sample(background,length(background)*(bg.weight),replace=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	935 #}
ce08b0efa3fd Uploaded zzhou parents: diff changeset	936 # make up combined position, flag vectors
ce08b0efa3fd Uploaded zzhou parents: diff changeset	937 pv <- abs(c(signal,background)+tag.shift);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	938 fv <- c(rep(1,length(signal)),rep(0,length(background)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	939 po <- order(pv);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	940 pv <- pv[po];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	941 fv <- fv[po];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	942
ce08b0efa3fd Uploaded zzhou parents: diff changeset	943 #thr <- pnorm(thr,lower.tail=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	944
ce08b0efa3fd Uploaded zzhou parents: diff changeset	945 storage.mode(wsize) <- storage.mode(mcs) <- storage.mode(fv) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	946 storage.mode(thr) <- storage.mode(pv) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	947 storage.mode(bg.weight) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	948 storage.mode(min.tag.count.thr) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	949 either <- as.integer(either);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	950 storage.mode(either) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	951
ce08b0efa3fd Uploaded zzhou parents: diff changeset	952 z <- .Call("find_poisson_enrichment_clusters",pv,fv,wsize,thr,mcs,bg.weight,min.tag.count.thr,either)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	953 return(z);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	954 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	955
ce08b0efa3fd Uploaded zzhou parents: diff changeset	956
ce08b0efa3fd Uploaded zzhou parents: diff changeset	957
ce08b0efa3fd Uploaded zzhou parents: diff changeset	958
ce08b0efa3fd Uploaded zzhou parents: diff changeset	959
ce08b0efa3fd Uploaded zzhou parents: diff changeset	960 # estimates threshold, calculates predictions on complete data and randomized data
ce08b0efa3fd Uploaded zzhou parents: diff changeset	961 # input: tvl
ce08b0efa3fd Uploaded zzhou parents: diff changeset	962 # control - a list of control tag datasets
ce08b0efa3fd Uploaded zzhou parents: diff changeset	963 # no randomization is done if control is supplied
ce08b0efa3fd Uploaded zzhou parents: diff changeset	964 # return.rtp - return randomized tag peaks - do not fit thresholds or do actual predictions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	965 # topN - use min threshold to do a run, return topN peaks from entire genome
ce08b0efa3fd Uploaded zzhou parents: diff changeset	966 # threshold - specify a user-defined threshold
ce08b0efa3fd Uploaded zzhou parents: diff changeset	967 lwcc.prediction <- function(tvl,e.value=NULL, fdr=0.01, chrl=names(tvl), min.thr=0, n.randomizations=1, shuffle.window=1, debug=T, predict.on.random=F, shuffle.both.strands=T,strand.shuffle.only=F, return.rtp=F, control=NULL, print.level=0, threshold=NULL, topN=NULL, bg.tl=NULL, tec.filter=T, tec.window.size=1e3,tec.z=3, tec.masking.window.size=tec.window.size, tec.poisson.z=3,tec.poisson.ratio=4, bg.reverse=T, return.control.predictions=F, return.core.data=F, background.density.scaling=T, ... ) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	968
ce08b0efa3fd Uploaded zzhou parents: diff changeset	969 control.predictions <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	970 core.data <- list();
ce08b0efa3fd Uploaded zzhou parents: diff changeset	971
ce08b0efa3fd Uploaded zzhou parents: diff changeset	972 if(!is.null(bg.tl) & tec.filter) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	973 if(debug) { cat("finding background exclusion regions ... "); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	974 tec <- find.significantly.enriched.regions(bg.tl,tvl,window.size=tec.window.size,z.thr=tec.z,masking.window.size=tec.masking.window.size,poisson.z=tec.poisson.z,poisson.ratio=tec.poisson.ratio,background.density.scaling=background.density.scaling,either=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	975 if(return.core.data) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	976 core.data <- c(core.data,list(tec=tec));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	977 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	978 if(debug) { cat("done\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	979 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	980
ce08b0efa3fd Uploaded zzhou parents: diff changeset	981
ce08b0efa3fd Uploaded zzhou parents: diff changeset	982 if(is.null(threshold) & is.null(topN)) { # threshold determination is needed
ce08b0efa3fd Uploaded zzhou parents: diff changeset	983 # generate control predictions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	984 if(!is.null(control)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	985 if(debug) { cat("determining peaks on provided",length(control),"control datasets:\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	986 if(!is.null(bg.tl)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	987 if(bg.reverse) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	988 if(debug) { cat("using reversed signal for FDR calculations\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	989 rbg.tl <- tvl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	990 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	991 if(debug) { cat("generating randomized (within chromosome) background ... "); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	992 rbg.tl <- lapply(bg.tl,function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	993 if(length(d)<2) { return(d); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	994 rng <- range(abs(d));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	995 rd <- round(runif(length(d),rng[1],rng[2]));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	996 nrd <- sample(1:length(rd),length(which(d<0)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	997 rd[nrd] <- rd[nrd]*(-1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	998 return(rd);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	999 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1000 if(debug) { cat("done\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1001 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1002 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1003 rbg.tl <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1004 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1005 n.randomizations <- length(control);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1006 #signal.size <- sum(unlist(lapply(tvl,length)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1007 rtp <- lapply(control,function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1008 # calculate tag.weight
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1009 #tag.weight <- sum(unlist(lapply(tvl,length)))/sum(unlist(lapply(d,length)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1010 tag.weight <- dataset.density.ratio(tvl,d,background.density.scaling=background.density.scaling);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1011 #cat("tag.weight=",tag.weight," ");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1012 return(window.call.mirror.binding(d,min.thr=min.thr, tag.weight=tag.weight,bg.tl=rbg.tl, debug=debug, round.up=T,background.density.scaling=background.density.scaling, ...));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1013 #return(window.call.mirror.binding(d,min.thr=min.thr, method=tag.wtd,wsize=200,bg.tl=control.data,window.size=window.size,debug=T,min.dist=min.dist,cluster=cluster))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1014 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1015 if(return.core.data) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1016 core.data <- c(core.data,list(rtp.unfiltered=rtp));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1017 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1018 if(tec.filter) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1019 if(debug) { cat("excluding systematic background anomalies ... "); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1020 rtp <- lapply(rtp,filter.binding.sites,tec,exclude=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1021 if(debug) { cat("done\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1022 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1023 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1024 if(debug) { cat("determining peaks on ",n.randomizations,"randomized datasets:\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1025 rtp <- lapply(1:n.randomizations,function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1026 rd <- generate.randomized.data(tvl,shuffle.window=shuffle.window,shuffle.both.strands=shuffle.both.strands,strand.shuffle.only=strand.shuffle.only);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1027 return(window.call.mirror.binding(rd,min.thr=min.thr,bg.tl=bg.tl, debug=debug, ...));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1028 #return(window.call.mirror.binding(rd,min.thr=min.thr, method=tag.wtd,wsize=200,bg.tl=control.data,window.size=window.size,debug=T,min.dist=min.dist))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1029 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1030 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1031 if(return.control.predictions) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1032 control.predictions <- rtp;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1033 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1034 rtp <- do.call(rbind,lapply(rtp,function(d) do.call(rbind,d))); # merge tables
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1035
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1036 # generate real data predictions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1037 if(debug) { cat("determining peaks on real data:\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1038 npl <- window.call.mirror.binding(tvl,min.thr=min.thr,bg.tl=bg.tl, debug=debug, background.density.scaling=background.density.scaling, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1039 #npl <- window.call.mirror.binding(tvl,min.thr=min.thr, method=tag.wtd,wsize=200,bg.tl=control.data,window.size=window.size,debug=T,min.dist=min.dist,cluster=cluster);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1040 if(return.core.data) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1041 core.data <- c(core.data,list(npl.unfiltered=npl));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1042 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1043
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1044 if(!is.null(bg.tl) & tec.filter) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1045 if(debug) { cat("excluding systematic background anomalies ... "); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1046 npl <- filter.binding.sites(npl,tec,exclude=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1047 if(debug) { cat("done\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1048 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1049
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1050 # calculate E-value and FDRs for all of the peaks
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1051 if(debug) { cat("calculating statistical thresholds\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1052 chrl <- names(npl); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1053 npld <- do.call(rbind,lapply(names(npl),function(chr) { k <- npl[[chr]]; if(!is.null(k) & dim(k)[1]>0) { k$chr <- rep(chr,dim(k)[1]) }; return(k) }))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1054 npld <- cbind(npld,get.eval.fdr.vectors(npld$y,rtp$y));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1055 # correct for n.randomizations
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1056 npld$fdr <- npld$fdr/n.randomizations;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1057 npld$evalue <- npld$evalue/n.randomizations;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1058
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1059 if(return.core.data) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1060 core.data <- c(core.data,list(npld=npld));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1061 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1062
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1063 # determine actual thresholds
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1064 if(is.null(e.value)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1065 if(is.null(fdr)) { fdr <- 0.01; }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1066 thr <- list(root=min(npld$y[npld$fdr<=fdr]),type="FDR",fdr=fdr)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1067 if(debug) { cat("FDR",fdr,"threshold=",thr$root,"\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1068 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1069 # determine threshold based on e-value
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1070 thr <- list(root=min(npld$y[npld$evalue<=e.value]),type="Evalue",e.value=e.value)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1071 if(debug) { cat("E-value",e.value,"threshold=",thr$root,"\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1072 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1073
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1074
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1075 npld <- npld[npld$y>=thr$root,];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1076 if(dim(npld)[1]>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1077 npl <- tapply(c(1:dim(npld)[1]),as.factor(npld$chr),function(ii) {df <- npld[ii,]; df$chr <- NULL; return(df) });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1078 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1079 npl <- list();
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1080 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1081 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1082 if(is.null(threshold)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1083 thr <- list(root=min.thr,type="minimal");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1084 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1085 thr <- list(root=threshold,type="user specified");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1086 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1087
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1088 cat("calling binding positions using",thr$type,"threshold (",thr$root,") :\n");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1089 npl <- window.call.mirror.binding(tvl=tvl,min.thr=thr$root,bg.tl=bg.tl, debug=debug, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1090 if(!is.null(bg.tl) & tec.filter) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1091 if(debug) { cat("excluding systematic background anomalies ... "); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1092 npl <- filter.binding.sites(npl,tec,exclude=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1093 if(debug) { cat("done\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1094 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1095
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1096 if(!is.null(topN)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1097 # determine threshold based on topN peaks
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1098 ay <- unlist(lapply(npl,function(d) d$y));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1099 if(length(ay)>topN) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1100 thr <- list(root=sort(ay,decreasing=T)[topN],type="topN",topN=topN);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1101 cat(paste("determined topN threshold :",thr$root,"\n"));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1102 npl <- lapply(npl,function(d) d[d$y>thr$root,]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1103 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1104 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1105 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1106
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1107 if(return.core.data) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1108 return(c(list(npl=npl,thr=thr),core.data));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1109 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1110 if(return.control.predictions & !is.null(control.predictions)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1111 return(list(npl=npl,thr=thr,control.predictions=control.predictions));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1112 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1113 return(list(npl=npl,thr=thr));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1114 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1115
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1116 # window tag difference method
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1117 wtd <- function(x,y,s,e,whs=200,return.peaks=T,min.thr=5,min.dist=200,step=1,direct.count=F,tag.weight=1,bg.x=NULL,bg.y=NULL,bg.weight=1,mask.x=NULL,mask.y=NULL,ignore.masking=F, bg.whs=whs, round.up=F, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1118 ignore.masking <- ignore.masking \| (is.null(mask.x) & is.null(mask.y));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1119 if(step>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1120 x <- floor(x/step+0.5); y <- floor(y/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1121
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1122 if(!is.null(bg.x)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1123 bg.x <- floor(bg.x/step+0.5); bg.y <- floor(bg.y/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1124 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1125
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1126 if(!is.null(mask.x)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1127 mask.x <- floor(mask.x/step+0.5); mask.y <- floor(mask.y/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1128 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1129
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1130
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1131 whs <- floor(whs/step+0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1132 bg.whs <- floor(bg.whs/step+0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1133 min.dist <- floor(min.dist/step +0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1134 s <- floor(s/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1135 e <- floor(e/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1136 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1137
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1138 # scale bg.weight, since within calculation they are considered independent
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1139 bg.weight <- bg.weight*tag.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1140
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1141 rx <- c(s-whs,e+whs);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1142
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1143 # compile tag vectors
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1144 xt <- table(x);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1145 xh <- integer(diff(rx)+1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1146 xh[as.integer(names(xt))-rx[1]+1] <- as.integer(xt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1147
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1148 yt <- table(y);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1149 yh <- integer(diff(rx)+1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1150 yh[as.integer(names(yt))-rx[1]+1] <- as.integer(yt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1151
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1152 # compile background vectors
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1153 if(!is.null(bg.x) & length(bg.x)>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1154 bg.subtract <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1155
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1156 bg.xt <- table(bg.x);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1157 bg.xh <- integer(diff(rx)+1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1158 bg.xh[as.integer(names(bg.xt))-rx[1]+1] <- as.integer(bg.xt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1159 rm(bg.xt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1160
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1161 bg.yt <- table(bg.y);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1162 bg.yh <- integer(diff(rx)+1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1163 bg.yh[as.integer(names(bg.yt))-rx[1]+1] <- as.integer(bg.yt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1164 rm(bg.yt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1165
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1166 # adjust bg.weight according to bg.whs
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1167 if(bg.whs!=whs) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1168 bg.weight <- bg.weight*whs/bg.whs;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1169 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1170 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1171 bg.subtract <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1172 bg.xh <- bg.yh <- c();
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1173 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1174
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1175 # record masked positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1176 if(!ignore.masking) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1177 if(!is.null(mask.x) & length(mask.x)>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1178 mvx <- unique(mask.x); mvx <- setdiff(mvx,as.numeric(names(xt)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1179 mvx <- mvx[mvx>=rx[1] & mvx<=rx[2]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1180 xh[mvx-rx[1]+1] <- -1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1181 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1182
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1183 if(!is.null(mask.y) & length(mask.y)>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1184 mvy <- unique(mask.y); mvy <- setdiff(mvy,as.numeric(names(yt)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1185 mvy <- mvy[mvy>=rx[1] & mvy<=rx[2]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1186 yh[mvy-rx[1]+1] <- -1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1187 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1188 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1189
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1190 rm(xt,yt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1191
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1192 if(round.up) { round.up <- 1; } else { round.up <- 0; }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1193
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1194 storage.mode(xh) <- storage.mode(yh) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1195 storage.mode(bg.xh) <- storage.mode(bg.yh) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1196 nx <- length(xh); storage.mode(nx) <- storage.mode(whs) <- storage.mode(bg.whs) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1197 rp <- as.integer(return.peaks);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1198 dcon <- as.integer(direct.count);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1199 storage.mode(rp) <- storage.mode(min.dist) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1200 storage.mode(min.thr) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1201 storage.mode(dcon) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1202 storage.mode(tag.weight) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1203 storage.mode(bg.weight) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1204 storage.mode(bg.subtract) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1205 storage.mode(round.up) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1206 im <- as.integer(ignore.masking);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1207 storage.mode(im) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1208 z <- .Call("wtd",xh,yh,whs,rp,min.dist,min.thr,dcon,tag.weight,im,bg.subtract,bg.xh,bg.yh,bg.whs,bg.weight,round.up);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1209 if(return.peaks) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1210 return(data.frame(x=(z$x+rx[1])*step,y=z$v));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1211 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1212 return(list(x=rx*step,y=z));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1213 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1214 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1215
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1216
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1217 tag.wtd <- function(ctv,s,e,return.peaks=T, bg.ctv=NULL, mask.ctv=NULL, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1218 x <- ctv[ctv>=s & ctv<=e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1219 y <- (-1)*ctv[ctv<=-s & ctv>=-e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1220
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1221 if(!is.null(bg.ctv)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1222 bg.x <- bg.ctv[bg.ctv>=s & bg.ctv<=e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1223 bg.y <- (-1)*bg.ctv[bg.ctv<=-s & bg.ctv>=-e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1224 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1225 bg.x <- bg.y <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1226 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1227
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1228 if(!is.null(mask.ctv)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1229 mask.x <- mask.ctv[mask.ctv>=s & mask.ctv<=e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1230 mask.y <- (-1)*mask.ctv[mask.ctv<=-s & mask.ctv>=-e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1231 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1232 mask.x <- mask.y <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1233 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1234
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1235 if(length(x)==0 \| length(y) ==0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1236 if(return.peaks) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1237 return(data.frame(x=c(),y=c()));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1238 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1239 rx <- range(c(x,y));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1240 return(list(x=rx,y=numeric(diff(rx)+1)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1241 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1242 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1243 return(wtd(x,y,s,e,return.peaks=return.peaks, bg.x=bg.x,bg.y=bg.y, mask.x=mask.x,mask.y=mask.y, ...))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1244 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1245 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1246
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1247 # shuffles tags in chromosome blocks of a specified size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1248 # note: all coordinates should be positive
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1249 tag.block.shuffle <- function(tags,window.size=100) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1250 if(length(tags)<3) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1251 warning("too few tags for shuffling");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1252 return(tags);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1253 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1254 rng <- range(tags);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1255 #if(rng[1]<0) { stop("negative tag coordinates found") }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1256 if(diff(rng)<=window.size) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1257 warning(paste("tag range (",diff(rng),") is smaller than shuffle window size"));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1258 return(tags);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1259 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1260
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1261 if(window.size==0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1262 return(as.integer(runif(length(tags),min=rng[1],max=rng[2])))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1263 } else if(window.size==1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1264 tt <- table(tags);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1265 return(rep(runif(length(tt),min=rng[1],max=rng[2]),as.integer(tt)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1266 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1267 # block positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1268 bp <- tags %/% window.size;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1269 # block-relative tag positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1270 rp <- tags %% window.size;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1271
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1272 # shuffle block positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1273 bpu <- unique(bp);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1274 rbp <- range(bpu);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1275 bps <- as.integer(runif(length(bpu),min=rbp[1],max=rbp[2]));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1276 bpi <- match(bp,bpu);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1277 sbp <- bps[bpi];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1278 #sbp <- rbp[1]+match(bp,sample(rbp[1]:rbp[2]))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1279 return(sbp*window.size+rp);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1280 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1281 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1282
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1283
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1284 # calculate window cross-correlation
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1285 lwcc <- function(x,y,s,e,whs=100,isize=20,return.peaks=T,min.thr=1,min.dist=100,step=1,tag.weight=1,bg.x=NULL,bg.y=NULL,bg.weight=NULL,mask.x=NULL,mask.y=NULL,bg.whs=whs,round.up=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1286 if(step>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1287 x <- floor(x/step+0.5); y <- floor(y/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1288
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1289 if(!is.null(bg.x)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1290 bg.x <- floor(bg.x/step+0.5); bg.y <- floor(bg.y/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1291 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1292
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1293 if(!is.null(mask.x)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1294 mask.x <- floor(mask.x/step+0.5); mask.y <- floor(mask.y/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1295 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1296
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1297 whs <- floor(whs/step+0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1298 bg.whs <- floor(bg.whs/step+0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1299 isize <- floor(isize/step+0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1300 min.dist <- floor(min.dist/step +0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1301 s <- floor(s/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1302 e <- floor(e/step+0.5)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1303 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1304
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1305 # scale bg.weight, since within calculation they are considered independent
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1306 bg.weight <- bg.weight*tag.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1307
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1308
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1309 rx <- c(s-whs,e+whs);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1310 xt <- table(x);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1311 xh <- integer(diff(rx)+1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1312 xh[as.integer(names(xt))-rx[1]+1] <- as.integer(xt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1313
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1314 yt <- table(y);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1315
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1316 yh <- integer(diff(rx)+1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1317 yh[as.integer(names(yt))-rx[1]+1] <- as.integer(yt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1318
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1319 # compile background vectors
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1320 if(!is.null(bg.x) & length(bg.x)>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1321 bg.subtract <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1322
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1323 bg.xt <- table(bg.x);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1324 bg.xh <- integer(diff(rx)+1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1325 bg.xh[as.integer(names(bg.xt))-rx[1]+1] <- as.integer(bg.xt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1326 rm(bg.xt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1327
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1328 bg.yt <- table(bg.y);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1329 bg.yh <- integer(diff(rx)+1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1330 bg.yh[as.integer(names(bg.yt))-rx[1]+1] <- as.integer(bg.yt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1331 rm(bg.yt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1332
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1333 # adjust bg.weight according to bg.whs
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1334 bg.weight <- bg.weight*(whs-isize)/bg.whs;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1335 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1336 bg.subtract <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1337 bg.xh <- bg.yh <- c();
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1338 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1339
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1340 # record masked positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1341 if(!is.null(mask.x) & length(mask.x)>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1342 mvx <- unique(mask.x); mvx <- setdiff(mvx,as.numeric(names(xt)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1343 mvx <- mvx[mvx>=rx[1] & mvx<=rx[2]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1344
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1345 xh[mvx-rx[1]+1] <- -1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1346 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1347
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1348 if(!is.null(mask.y) & length(mask.y)>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1349 mvy <- unique(mask.y); mvy <- setdiff(mvy,as.numeric(names(yt)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1350 mvy <- mvy[mvy>=rx[1] & mvy<=rx[2]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1351 yh[mvy-rx[1]+1] <- -1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1352 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1353
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1354 rm(xt,yt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1355 if(round.up) { round.up <- 1; } else { round.up <- 0; }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1356
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1357 storage.mode(xh) <- storage.mode(yh) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1358 storage.mode(bg.xh) <- storage.mode(bg.yh) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1359 nx <- length(xh); storage.mode(nx) <- storage.mode(whs) <- storage.mode(isize) <- storage.mode(bg.whs) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1360 rp <- as.integer(return.peaks);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1361 storage.mode(rp) <- storage.mode(min.dist) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1362 storage.mode(min.thr) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1363 storage.mode(tag.weight) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1364 storage.mode(bg.weight) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1365 storage.mode(bg.subtract) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1366 storage.mode(round.up) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1367
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1368 # allocate return arrays
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1369 #cc <- numeric(nx); storage.mode(cc) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1370 z <- .Call("lwcc",xh,yh,whs,isize,rp,min.dist,min.thr,tag.weight,bg.subtract,bg.xh,bg.yh,bg.whs,bg.weight,round.up);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1371 if(return.peaks) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1372 return(data.frame(x=(z$x+rx[1])*step,y=z$v));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1373 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1374 return(list(x=rx*step,y=z));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1375 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1376 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1377
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1378
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1379 tag.lwcc <- function(ctv,s,e,return.peaks=T, bg.ctv=NULL, mask.ctv=NULL, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1380 x <- ctv[ctv>=s & ctv<=e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1381 y <- (-1)*ctv[ctv<=-s & ctv>=-e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1382
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1383 if(!is.null(bg.ctv)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1384 bg.x <- bg.ctv[bg.ctv>=s & bg.ctv<=e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1385 bg.y <- (-1)*bg.ctv[bg.ctv<=-s & bg.ctv>=-e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1386 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1387 bg.x <- bg.y <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1388 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1389
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1390 if(!is.null(mask.ctv)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1391 mask.x <- mask.ctv[mask.ctv>=s & mask.ctv<=e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1392 mask.y <- (-1)*mask.ctv[mask.ctv<=-s & mask.ctv>=-e];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1393 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1394 mask.x <- mask.y <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1395 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1396
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1397 if(length(x)==0 \| length(y) ==0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1398 if(return.peaks) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1399 return(data.frame(x=c(),y=c()));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1400 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1401 rx <- range(c(x,y));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1402 return(list(x=rx,y=numeric(diff(rx)+1)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1403 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1404 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1405 return(lwcc(x,y, s,e,return.peaks=return.peaks, bg.x=bg.x,bg.y=bg.y, mask.x=mask.x,mask.y=mask.y, ...))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1406 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1407 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1408
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1409 # determine mirror-based binding positions using sliding window along each chromosome
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1410 # extra parameters are passed on to call.nucleosomes()
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1411 window.call.mirror.binding <- function(tvl,window.size=4e7, debug=T, cluster=NULL, bg.tl=NULL, mask.tl=NULL, background.density.scaling=T, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1412 chrl <- names(tvl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1413 # determine bg.weight
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1414 if(!is.null(bg.tl)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1415 bg.weight <- dataset.density.ratio(tvl,bg.tl,background.density.scaling=background.density.scaling);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1416 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1417 bg.weight <- NULL;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1418 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1419 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1420 cat("bg.weight=",bg.weight," ");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1421 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1422
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1423 names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1424
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1425 if(is.null(cluster)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1426 return(lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1427 bg.ctv <- NULL; if(!is.null(bg.tl)) { bg.ctv <- bg.tl[[chr]]; };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1428 mask.ctv <- NULL; if(!is.null(mask.tl)) { mask.ctv <- mask.tl[[chr]]; };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1429
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1430 window.chr.call.mirror.binding(list(ctv=tvl[[chr]],bg.ctv=bg.ctv,mask.ctv=mask.ctv),window.size=window.size,chr=chr,debug=debug, bg.weight=bg.weight, bg.ctv=bg.ctv, mask.ctv=mask.ctv, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1431 }));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1432 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1433 # add bg.ctv and mask.ctv to parallel call
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1434 tvll <- lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1435 bg.ctv <- NULL; if(!is.null(bg.tl)) { bg.ctv <- bg.tl[[chr]]; };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1436 mask.ctv <- NULL; if(!is.null(mask.tl)) { mask.ctv <- mask.tl[[chr]]; };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1437 return(list(ctv=tvl[[chr]],bg.ctv=bg.ctv,mask.ctv=mask.ctv))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1438 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1439 bl <- clusterApplyLB(cluster,tvll,window.chr.call.mirror.binding,window.size=window.size,debug=debug, bg.weight=bg.weight, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1440 names(bl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1441 return(bl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1442 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1443 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1444
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1445 window.chr.call.mirror.binding <- function(ctvl,window.size,debug=T, chr="NA", cluster=NULL, method=tag.wtd, bg.ctv=NULL, mask.ctv=NULL, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1446 ctv <- ctvl$ctv; bg.ctv <- ctvl$bg.ctv; mask.ctv <- ctvl$mask.ctv;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1447 if(is.null(ctv)) { return(data.frame(x=c(),y=c())) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1448 if(length(ctv)<2) { return(data.frame(x=c(),y=c())) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1449
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1450 dr <- range(unlist(lapply(ctv,function(x) range(abs(x)))))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1451 n.windows <- ceiling(diff(dr)/window.size);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1452
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1453
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1454 pinfo <- c();
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1455 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1456 cat(paste("processing ",chr," in ",n.windows," steps [",sep=""));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1457 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1458 for(i in 1:n.windows) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1459 s <- dr[1]+(i-1)*window.size;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1460 npn <- method(s=s, e=s+window.size,ctv=ctv, return.peaks=T, bg.ctv=bg.ctv, mask.ctv=mask.ctv, ... );
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1461 if(length(npn) > 0) { pinfo <- rbind(pinfo,npn) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1462 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1463 cat(".");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1464 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1465 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1466 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1467 cat(paste("] done (",dim(pinfo)[1],"positions)\n"));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1468 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1469 cat(".");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1470 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1471 return(data.frame(x=pinfo[,1],y=pinfo[,2]));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1472 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1473
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1474 generate.randomized.data <- function(data,shuffle.window=1,shuffle.both.strands=T,strand.shuffle.only=F,chrl=names(data)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1475 names(chrl) <- unlist(chrl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1476 if(strand.shuffle.only) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1477 # shuffle just strand assignment, not tag positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1478 rt <- lapply(data[unlist(chrl)],function(tv) tv*sample(c(-1,1),length(tv),replace=T));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1479 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1480 if(shuffle.both.strands) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1481 rt <- lapply(data[unlist(chrl)],function(tv) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1482 pti <- which(tv>0); return(c(tag.block.shuffle(tv[pti],window.size=shuffle.window),tag.block.shuffle(tv[-pti],window.size=shuffle.window)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1483 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1484 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1485 rt <- lapply(data[unlist(chrl)],function(tv) { pti <- which(tv>0); return(c(tag.block.shuffle(tv[pti],window.size=shuffle.window),tv[-pti]))});
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1486 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1487 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1488 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1489
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1490 # determine threshold based on E value
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1491 # for efficiency chrl should include just one or two small chromosomes
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1492 # optional parameters are passed to call.nucleosomes()
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1493 determine.lwcc.threshold <- function(tvl,chrl=names(tvl),e.value=100, n.randomizations=1, min.thr=1, debug=F, tol=1e-2, shuffle.window=1, shuffle.both.strands=T, return.rtp=F, control=NULL, strand.shuffle=F, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1494 names(chrl) <- unlist(chrl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1495
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1496 # determine fraction of total tags contained in the specified nucleosomes
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1497 ntags <- sum(unlist(lapply(tvl,function(cv) length(cv))));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1498 nctags <- sum(unlist(lapply(chrl, function(cn) length(tvl[[cn]]))));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1499 # calculate actual target E value
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1500 if(!is.null(control)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1501 n.randomizations <- length(control);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1502 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1503 eval <- e.valuen.randomizationsnctags/ntags
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1504 if(eval<1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1505 warning("specified e.value and set of chromosomes results in target e.value of less than 1");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1506 eval <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1507 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1508
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1509 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1510 cat(paste("randomizations =",n.randomizations," chromosomes =",length(chrl),"\n"))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1511 cat(paste("adjusted target eval =",eval,"\ngenerating randomized tag peaks ..."));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1512 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1513
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1514 # get peaks on randomized tags
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1515 if(is.null(control)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1516 rtp <- data.frame(do.call(rbind,lapply(1:n.randomizations,function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1517 if(strand.shuffle) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1518 # shuffle just strand assignment, not tag positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1519 rt <- lapply(tvl[unlist(chrl)],function(tv) tv*sample(c(-1,1),length(tv),replace=T));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1520 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1521 if(shuffle.both.strands) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1522 rt <- lapply(tvl[unlist(chrl)],function(tv) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1523 pti <- which(tv>0); return(c(tag.block.shuffle(tv[pti],window.size=shuffle.window),tag.block.shuffle(tv[-pti],window.size=shuffle.window)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1524 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1525 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1526 rt <- lapply(tvl[unlist(chrl)],function(tv) { pti <- which(tv>0); return(c(tag.block.shuffle(tv[pti],window.size=shuffle.window),tv[-pti]))});
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1527 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1528 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1529 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1530 cat(".");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1531 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1532 rl <- window.call.mirror.binding(rt,min.thr=min.thr, debug=F, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1533
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1534 return(do.call(rbind,rl))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1535 #return(do.call(rbind,window.call.mirror.binding(rt,min.thr=min.thr, debug=F, whs=100,isize=10,window.size=3e7,min.dist=200)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1536 })));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1537
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1538 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1539 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1540 cat(" using provided controls ");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1541 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1542 rtp <- data.frame(do.call(rbind,lapply(control,function(rt) do.call(rbind,window.call.mirror.binding(rt,min.thr=min.thr, debug=F, ...)))))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1543 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1544
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1545 if(return.rtp) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1546 return(rtp)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1547 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1548
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1549 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1550 cat(" done\nfinding threshold .");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1551 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1552
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1553 # determine range and starting value
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1554 rng <- c(min.thr,max(na.omit(rtp$y)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1555
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1556 # find E value threshold
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1557 count.nucs.f <- function(nthr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1558 return(eval-length(which(rtp$y>=nthr)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1559 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1560
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1561 # estimate position of the root by downward bisection iterations
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1562 mv <- c(eval); mvp <- c(rng[2]); ni <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1563 max.it <- 2*as.integer(log2(rng[2]/rng[1])+0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1564 while((ni<=max.it) & (mv[1]>=0)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1565 np <- mvp[1]/2;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1566 npv <- count.nucs.f(np);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1567 mv <- c(npv,mv);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1568 mvp <- c(np,mvp);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1569 ni <- ni+1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1570 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1571
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1572
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1573 if(ni>max.it) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1574 # determine lowest value
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1575 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1576 cat(paste("exceeded max.it (",max.it,"), returning lowest point",signif(mvp[1],4)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1577 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1578 return(list(root=mvp[1]))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1579 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1580 rng <- mvp[1:2];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1581 if(mv[2]==0) rng[2] <- mvp[3];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1582 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1583 cat(paste("bound to (",signif(rng[1],4),signif(rng[2],4),") "));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1584 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1585 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1586
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1587 # find root on the right side
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1588 x <- uniroot(count.nucs.f,rng,tol=tol);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1589 #x$max <- o$par;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1590 #x$f.max <- (-1)*o$value;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1591 if(debug) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1592 cat(paste(" done (thr=",signif(x$root,4),")\n"));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1593 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1594 return(x);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1595
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1596 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1597
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1598
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1599 # determine membership of points in fragments
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1600 points.within <- function(x,fs,fe,return.list=F,return.unique=F,sorted=F,return.point.counts=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1601 if(is.null(x) \| length(x) < 1) { return(c()) };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1602 if(!sorted) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1603 ox <- rank(x,ties="first");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1604 x <- sort(x);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1605 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1606
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1607 se <- c(fs,fe);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1608 fi <- seq(1:length(fs));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1609 fi <- c(fi,-1*fi);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1610
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1611 fi <- fi[order(se)];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1612 se <- sort(se);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1613
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1614 storage.mode(x) <- storage.mode(fi) <- storage.mode(se) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1615 if(return.unique) { iu <- 1; } else { iu <- 0; }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1616 if(return.list) { il <- 1; } else { il <- 0; }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1617 if(return.point.counts) { rpc <- 1; } else { rpc <- 0; }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1618 storage.mode(iu) <- storage.mode(il) <- storage.mode(rpc) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1619 result <- .Call("points_within",x,se,fi,il,iu,rpc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1620 if(!sorted & !return.point.counts) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1621 result <- result[ox];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1622 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1623 return(result);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1624 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1625
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1626
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1627 # determine cooridnates of points x relative to signed
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1628 # positions pos within size range
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1629 get.relative.coordinates <- function(x,pos,size,sorted=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1630 if(!sorted) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1631 op <- order(abs(pos));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1632 x <- sort(x); pos <- pos[op];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1633 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1634 #dyn.load("~/zhao/sc/peaks.so");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1635 storage.mode(x) <- storage.mode(pos) <- storage.mode(size) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1636 rf <- .Call("get_relative_coordinates",x,pos,size);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1637 if(!sorted) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1638 rf$i <- op[rf$i];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1639 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1640 return(rf$i);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1641 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1642 return(rf);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1643 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1644
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1645 # given list of magnitude values for signal(x) and control (y),
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1646 # return a dataframe with $e.val and $fdr
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1647 get.eval.fdr.vectors <- function(x,y) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1648 nx <- length(x); ny <- length(y);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1649 if(nx==0) { return(data.frame(evalue=c(),fdr=c())) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1650 if(ny==0) { return(data.frame(evalue=rep(0,nx),fdr=rep(1,nx))) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1651 ex <- ecdf(x); ey <- ecdf(y);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1652
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1653 evals <- (1-ey(x))*ny;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1654 yvals <- (1-ex(x))*nx;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1655 fdr <- (evals+0.5)/(yvals+0.5); # with pseudo-counts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1656 fdr[yvals==0] <- min(fdr); # correct for undercounts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1657 # find a min x corresponding to a minimal FDR
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1658 mfdr <- min(fdr);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1659 mfdrmx <- min(x[fdr==mfdr]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1660 # correct
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1661 fdr[x>=mfdrmx] <- mfdr;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1662 return(data.frame(evalue=(evals+1),fdr=fdr));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1663 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1664
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1665
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1666 # filter predictions to remove calls failling into the tag enrichment clusters ( chr list of $s/$e dfs)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1667 filter.binding.sites <- function(bd,tec,exclude=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1668 chrl <- names(bd); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1669 lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1670 cbd <- bd[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1671 if(is.null(cbd)) { return(NULL) };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1672 if(length(cbd)==0) { return(NULL) };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1673 if(dim(cbd)[1]>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1674 ctec <- tec[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1675 if(length(ctec$s)>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1676 if(exclude) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1677 pwi <- which(points.within(cbd$x,ctec$s,ctec$e)== -1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1678 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1679 pwi <- which(points.within(cbd$x,ctec$s,ctec$e)> -1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1680 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1681 return(cbd[pwi,]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1682 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1683 if(exclude) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1684 return(cbd);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1685 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1686 return(data.frame(x=c(),y=c()));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1687 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1688 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1689 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1690 return(cbd);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1691 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1692 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1693 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1694
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1695
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1696 # PUBLIC
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1697 # generate predictions on sequential (chained) subsamples of data
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1698 # if step.size <1, it is intepreted as a fraciton and a each subsequent subsample
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1699 # is of a size (1-fraction.step)*N (N - size of the signal data);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1700 # otherwise the step.size is interpreted as a number of tags, and each subsample is of the size N-step.size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1701 get.subsample.chain.calls <- function(signal.data,control.data,n.steps=NULL,step.size=1e6,subsample.control=F,debug=F,min.ntags=1e3, excluded.steps=c(), test.chromosomes=NULL, ... ) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1702
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1703 if(!is.null(test.chromosomes)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1704 # adjust step size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1705 sz <- sum(unlist(lapply(signal.data,length)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1706 signal.data <- signal.data[test.chromosomes];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1707 control.data <- control.data[test.chromosomes];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1708
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1709 if(step.size>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1710 step.size <- step.size*sum(unlist(lapply(signal.data,length)))/sz;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1711 # cat("adjusted step.size=",step.size,"\n");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1712 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1713 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1714
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1715 if(is.null(n.steps)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1716 if(step.size<1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1717 # down to 10%
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1718 n.steps <- log(0.1)/log(step.size);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1719 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1720 n.steps <- floor(sum(unlist(lapply(signal.data,length)))/step.size)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1721 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1722 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1723 if(subsample.control & !is.null(control.data)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1724 # normalize control to the signal size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1725 if(debug) { cat("pre-subsampling control.\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1726 bg.weight <- sum(unlist(lapply(signal.data,length)))/sum(unlist(lapply(control.data,length)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1727 control.data <- lapply(control.data,function(d) sample(d,length(d)*bg.weight,replace=(bg.weight>1)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1728 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1729 calls <- list();
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1730 callnames <- c();
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1731 for(i in 0:n.steps) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1732 if(debug) { cat("chained subsample step",i,":\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1733 if(!i %in% excluded.steps) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1734 ans <- list(find.binding.positions(signal.data=signal.data,control.data=control.data,debug=debug, skip.control.normalization=T, ...));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1735 names(ans) <- as.character(c(i));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1736 calls <- c(calls,ans);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1737 callnames <- c(callnames,i);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1738 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1739 # subsample
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1740 if(step.size<1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1741 # fraction steps
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1742 f <- 1-step.size;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1743 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1744 # bin steps
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1745 sz <- sum(unlist(lapply(signal.data,length)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1746 f <- (sz-step.size)/sz;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1747 if(f<=0) break;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1748 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1749 if(debug) { cat("chained subsampling using fraction",f,".\n"); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1750 signal.data <- lapply(signal.data,function(d) sample(d,length(d)*f));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1751 if(subsample.control & !is.null(control.data)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1752 control.data <- lapply(control.data,function(d) sample(d,length(d)*f));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1753 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1754 sz <- sum(unlist(lapply(signal.data,length)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1755 if(sz<min.ntags) break;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1756 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1757 names(calls) <- callnames;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1758 return(calls);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1759 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1760
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1761
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1762 # chain-subsample dataset and calculate MSER interpolation
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1763 mser.chain.interpolation <- function(signal.data=NULL,control.data=NULL,chains=NULL,n.chains=5,debug=F, enrichment.background.scales=c(1,5), test.agreement=0.99, agreement.distance=50, return.median=F, mean.trim=0.1, enr.field="enr", return.lists=F, ...) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1764 if(is.null(chains)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1765 cn <- c(1:n.chains); names(cn) <- cn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1766 tf <- function(i, ...) get.subsample.chain.calls(signal.data,control.data,debug=debug, enrichment.background.scales=enrichment.background.scales, ...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1767 chains <- lapply(cn,tf,...);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1768 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1769 names(enrichment.background.scales) <- enrichment.background.scales;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1770 lapply(enrichment.background.scales,function(scale) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1771 actual.enr.field <- enr.field;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1772 if(scale>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1773 actual.enr.field <- paste(actual.enr.field,scale,sep=".");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1774 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1775
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1776 cvl <- lapply(chains,function(chain) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1777 nn <- sort(unlist(lapply(chain,function(d) d$n)),decreasing=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1778 nd <- diff(nn);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1779 nn <- nn[-length(nn)];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1780 me <- lapply(c(2:length(chain)),function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1781 sla <- t.precalculate.ref.peak.agreement(chain[[i-1]],chain[i],agreement.distance=agreement.distance,enr.field=actual.enr.field)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1782 me <- t.find.min.saturated.enr(sla,thr=1-test.agreement)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1783 menr <- max(min(na.omit(unlist(lapply(chain[[i-1]]$npl,function(d) d[actual.enr.field])))),min(na.omit(unlist(lapply(chain[[i]]$npl,function(d) d[actual.enr.field])))),1)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1784 if(me<=menr) { me <- 1; };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1785 return(me);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1786 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1787 data.frame(n=nn,me=unlist(me),nd=nd);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1788 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1789 if(return.lists) { return(cvl) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1790 cvl <- na.omit(do.call(rbind,cvl));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1791 if(return.median) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1792 tv <- tapply(cvl$me,as.factor(cvl$n),median)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1793 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1794 tv <- tapply(cvl$me,as.factor(cvl$n),mean,trim=mean.trim);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1795 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1796 df <- data.frame(n=as.numeric(names(tv)),me=as.numeric(tv));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1797 return(df[order(df$n,decreasing=T),])
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1798 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1799 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1800
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1801
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1802
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1803 # returns agreement as a function of dataset size, possibly filtering peaks by min.enr threshold, and by max.fdr
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1804 chain.to.reference.comparison <- function(chains,min.enr=NULL,debug=F,agreement.distance=50, return.median=F, mean.trim=0.1, enr.field="enr",max.fdr=NULL) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1805 cvl <- lapply(chains,function(chain) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1806 # filter chain by fdr
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1807 if(!is.null(max.fdr)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1808 chain <- lapply(chain,function(d) { d$npl <- lapply(d$npl,function(cd) cd[cd$fdr<=max.fdr,]); return(d); });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1809 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1810 nn <- sort(unlist(lapply(chain,function(d) d$n)),decreasing=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1811 nn <- nn[-length(nn)];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1812 me <- lapply(c(2:length(chain)),function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1813 sla <- t.precalculate.ref.peak.agreement(chain[[1]],chain[i],agreement.distance=agreement.distance,enr.field=enr.field)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1814 # calculate overlap
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1815 x <- lapply(sla,function(mpd) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1816 if(!is.null(min.enr)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1817
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1818 me <- mpd$re >= min.enr;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1819 me[is.na(me)] <- F;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1820 mpd <- mpd[me,];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1821 ome <- mpd$oe < min.enr;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1822 ome[is.na(ome)] <- T;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1823 mpd$ov[ome] <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1824 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1825 return(mean(mpd$ov));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1826 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1827 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1828
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1829 data.frame(n=nn,me=unlist(me));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1830 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1831
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1832 cvl <- na.omit(do.call(rbind,cvl));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1833 if(return.median) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1834 tv <- tapply(cvl$me,as.factor(cvl$n),median)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1835 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1836 tv <- tapply(cvl$me,as.factor(cvl$n),mean,trim=mean.trim);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1837 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1838 df <- data.frame(n=as.numeric(names(tv)),me=as.numeric(tv));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1839 return(df[order(df$n,decreasing=T),])
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1840 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1841
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1842
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1843 # estimates enrichment confidence interval based on 2*tag.count.whs window around each position, and a z-score (alpha/2)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1844 # if(multiple.background.scales=T) the enrichment is also estimated using 5- and 10-fold increased background tag window
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1845 # adds $enr (lower bound), $enr.ub (upper bound) and $enr.mle fields
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1846 calculate.enrichment.estimates <- function(binding.positions,signal.data=NULL,control.data=NULL,fraction=1,tag.count.whs=100,z=2,effective.genome.size=3e9,scale.down.control=F,background.scales=c(1),bg.weight=NULL) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1847 f <- fraction;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1848 qv <- pnorm(z,lower.tail=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1849 cn <- names(binding.positions$npl); names(cn) <- cn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1850
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1851 if(is.null(control.data)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1852 # estimate from gamma distribution
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1853 fg.lambda <- fsum(unlist(lapply(signal.data,length)))2*tag.count.whs/effective.genome.size;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1854 binding.positions$npl <- lapply(binding.positions$npl,function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1855 d$enr <- qgamma(qv,d$nt,scale=1)/fg.lambda;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1856 d$enr.ub <- qgamma(1-qv,d$nt,scale=1)/fg.lambda;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1857 d$enr.mle <- d$nt/fg.lambda;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1858 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1859 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1860 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1861 # estimate using beta distribution
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1862 if(is.null(bg.weight)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1863 bg.weight <- sum(unlist(lapply(signal.data,length)))/sum(unlist(lapply(control.data,length)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1864 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1865
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1866 if(scale.down.control) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1867 # sample down control to be the same size as true signal.data (bg.weight*f)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1868 control.data <- lapply(control.data,function(d) sample(d,length(d)bg.weightf,replace=(f*bg.weight>1)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1869 #bg.weight <- sum(unlist(lapply(signal.data,length)))/sum(unlist(lapply(control.data,length)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1870 bg.weight <- 1/f;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1871
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1872 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1873
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1874 binding.positions$enrichment.bg.weight <- bg.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1875 binding.positions$enrichment.whs <- tag.count.whs;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1876 binding.positions$enrichment.z <- z;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1877
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1878 binding.positions$npl <- lapply(cn,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1879 d <- binding.positions$npl[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1880
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1881 edf <- lapply(background.scales,function(background.width.multiplier) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1882 sig.mult <- bg.weight*f/background.width.multiplier;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1883 nbg <- points.within(abs(control.data[[chr]]),d$x-tag.count.whsbackground.width.multiplier,d$x+tag.count.whsbackground.width.multiplier,return.point.counts=T,return.unique=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1884
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1885 nfg <- d$nt;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1886
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1887
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1888 # Poisson ratio Bayesian LB with non-informative prior (Clopper & Pearson 1934)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1889 nf <- ((nfg+0.5)/(nbg+0.5))qf(1-qv,2(nfg+0.5),2*(nbg+0.5),lower.tail=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1890 nf <- nf/sig.mult;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1891
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1892 ub <- ((nfg+0.5)/(nbg+0.5))qf(qv,2(nfg+0.5),2*(nbg+0.5),lower.tail=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1893 ub <- ub/sig.mult;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1894
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1895 mle <- (nfg+0.5)/(nbg+0.5);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1896 mle <- mle/sig.mult;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1897 if(is.null(nbg)) { nbg <- numeric(0) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1898 if(is.null(nf)) { nf <- numeric(0) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1899 if(is.null(ub)) { ub <- numeric(0) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1900 if(is.null(mle)) { mle <- numeric(0) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1901 return(data.frame(nbg=nbg,lb=nf,ub=ub,mle=mle))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1902 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1903
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1904 adf <- do.call(cbind,lapply(c(1:length(background.scales)),function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1905 df <- edf[[i]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1906 cn <- c("nbgt","enr","enr.ub","enr.mle");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1907 if(background.scales[i]>1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1908 cn <- paste(cn,as.character(background.scales[i]),sep=".");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1909 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1910 names(df) <- cn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1911 return(df);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1912 }))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1913
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1914 return(cbind(d,adf));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1915 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1916 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1917
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1918 return(binding.positions);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1919 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1920
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1921
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1922 # precalculate peak agreement of a sampling list given a reference
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1923 t.precalculate.ref.peak.agreement <- function(ref,sf,agreement.distance=50,enr.field="enr") {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1924 ref <- ref$npl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1925 cn <- names(ref); names(cn) <- cn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1926
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1927 # for each sampling round
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1928 lapply(sf,function(sd) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1929 # calculate overlap
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1930
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1931 ov <- data.frame(do.call(rbind,lapply(cn,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1932 if(dim(ref[[chr]])[1]<1) { return(cbind(ov=c(),re=c(),oe=c())) };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1933 pwi <- points.within(ref[[chr]]$x,sd$npl[[chr]]$x-agreement.distance,sd$npl[[chr]]$x+agreement.distance);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1934 pwi[pwi==-1] <- NA;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1935 renr <- ref[[chr]][,enr.field]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1936 oenr <- sd$npl[[chr]][,enr.field][pwi];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1937 if(length(oenr)==0) { oenr <- rep(NA,length(renr)); }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1938 return(cbind(ov=as.integer(!is.na(pwi)),re=renr,oe=oenr));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1939 })))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1940 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1941 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1942
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1943
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1944 # find minimal saturated enrichment given a list of replicate agreement matrices (for one fraction)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1945 t.find.min.saturated.enr <- function(pal,thr=0.01,plot=F,return.number.of.peaks=F,plot.individual=T,return.median=F,return.vector=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1946 nr <- length(pal);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1947 # merge replicate data frames
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1948 mpd <- data.frame(do.call(rbind,pal));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1949
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1950 mpd$re[is.na(mpd$re)] <- Inf;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1951 mpd$oe[is.na(mpd$oe)] <- Inf;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1952
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1953
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1954
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1955 # round up values to avoid miscounting
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1956 mpd$re <- round(mpd$re,digits=2);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1957 mpd$oe <- round(mpd$oe,digits=2);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1958
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1959 me <- pmin(mpd$re,mpd$oe);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1960 ome <- order(me,decreasing=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1961 df <- data.frame(me=me[ome],ov=mpd$ov[ome]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1962 recdf <- ecdf(-mpd$re); ren <- length(mpd$re);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1963
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1964 # collapse equal peak heights
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1965 xk <- tapply(df$ov,as.factor(df$me),sum); xk <- data.frame(ov=as.numeric(xk),me=as.numeric(names(xk))); xk <- xk[order(xk$me,decreasing=T),];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1966
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1967
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1968 cso <- cumsum(xk$ov)/(recdf(-xk$me)*ren);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1969 cso[is.na(cso)] <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1970 cso[!is.finite(cso)] <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1971 mv <- max(which(cso >= 1-thr))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1972 menr <- xk$me[mv];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1973
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1974 ir <- lapply(pal,function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1975 d$re[is.na(d$re)] <- Inf;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1976 d$oe[is.na(d$oe)] <- Inf;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1977
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1978 me <- pmin(d$re,d$oe);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1979 ome <- order(me,decreasing=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1980 df <- data.frame(me=me[ome],ov=d$ov[ome]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1981 cso <- cumsum(df$ov)/c(1:length(df$ov));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1982 mv <- max(which(cso >= 1-thr))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1983 menr <- df$me[mv];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1984 return(list(df=df,menr=menr));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1985 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1986
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1987 if(plot) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1988 par(mar = c(3.5,3.5,2.0,0.5), mgp = c(2,0.65,0), cex = 0.8);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1989 plot(df$me,cumsum(df$ov)/c(1:length(df$ov)),type='l',ylab="fraction of positions overlapping with reference",xlab="minimal enrichment of binding positions",xlim=c(min(df$me),2*menr));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1990 abline(h=1-thr,lty=2,col=4)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1991 if(plot.individual) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1992 lapply(ir,function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1993 df <- d$df;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1994 lines(df$me,cumsum(df$ov)/c(1:length(df$ov)),col=8);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1995 abline(v=menr,col="pink",lty=3)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1996 });
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1997 lines(df$me,cumsum(df$ov)/c(1:length(df$ov)),col=1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1998 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	1999 abline(v=menr,col=2,lty=2)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2000 legend(x="bottomright",lty=c(1,2,1,3,2),col=c(1,2,8,"pink",4),legend=c("combined samples","combined sample MSER","individual samples","individual MSERs","consistency threshold"));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2001 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2002
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2003 if(return.number.of.peaks) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2004 mpd <- data.frame(do.call(rbind,pal));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2005 return(length(which(!is.na(mpd$re) & mpd$re >=menr))/nr);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2006 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2007 if(return.vector) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2008 return(unlist(lapply(ir,function(d) d$menr)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2009 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2010 if(return.median) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2011 return(median(unlist(lapply(ir,function(d) d$menr))));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2012 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2013 return(menr);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2014 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2015 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2016 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2017
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2018
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2019
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2020 # determine d1/d2 dataset size ratio. If background.density.scaling=F, the ratio of tag counts is returned.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2021 # if background.density.scaling=T, regions of significant tag enrichment are masked prior to ratio calculation.
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2022 dataset.density.ratio <- function(d1,d2,min.tag.count.z=4.3,wsize=1e3,mcs=0,background.density.scaling=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2023 if(!background.density.scaling) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2024 return(sum(unlist(lapply(d1,length)))/sum(unlist(lapply(d2,length))))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2025 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2026
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2027 chrl <- intersect(names(d1),names(d2));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2028 ntc <- do.call(rbind,lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2029 x1 <- tag.enrichment.clusters(abs(d1[[chr]]),c(),wsize=wsize,bg.weight=0,min.tag.count.z=min.tag.count.z,mcs=mcs,either=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2030 x2 <- tag.enrichment.clusters(abs(d2[[chr]]),c(),wsize=wsize,bg.weight=0,min.tag.count.z=min.tag.count.z,mcs=mcs,either=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2031 return(c(length(which(points.within(abs(d1[[chr]]),c(x1$s,x2$s)-wsize/2,c(x1$e,x2$e)+wsize/2)==-1)),length(which(points.within(abs(d2[[chr]]),c(x1$s,x2$s)-wsize/2,c(x1$e,x2$e)+wsize/2)==-1))))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2032 }))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2033 ntcs <- apply(ntc,2,sum);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2034 #print(ntcs/c(sum(unlist(lapply(d1,length))),sum(unlist(lapply(d2,length)))));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2035 return(ntcs[1]/ntcs[2])
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2036 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2037
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2038 # returns effective size of the dataset based on the same logic as dataset.density.ratio
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2039 dataset.density.size <- function(d1,min.tag.count.z=4.3,wsize=1e3,mcs=0,background.density.scaling=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2040 if(!background.density.scaling) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2041 return(sum(unlist(lapply(d1,length))))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2042 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2043
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2044 chrl <- names(d1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2045 ntc <- lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2046 x1 <- tag.enrichment.clusters(abs(d1[[chr]]),c(),wsize=wsize,bg.weight=0,min.tag.count.z=min.tag.count.z,mcs=mcs,either=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2047 return(length(which(points.within(abs(d1[[chr]]),x1$s-wsize/2,x1$e+wsize/2)==-1)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2048 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2049 return(sum(unlist(ntc)))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2050 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2051
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2052 old.dataset.density.ratio <- function(d1,d2,min.tag.count.z=4.3,wsize=1e3,mcs=0,background.density.scaling=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2053 if(!background.density.scaling) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2054 return(sum(unlist(lapply(d1,length)))/sum(unlist(lapply(d2,length))))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2055 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2056
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2057 t.chromosome.counts <- function(tl) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2058 lapply(tl,function(d) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2059 x <- tag.enrichment.clusters(abs(d),c(),wsize=wsize,bg.weight=0,min.tag.count.z=min.tag.count.z,mcs=mcs,either=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2060 x$s <- x$s-wsize/2; x$e <- x$e+wsize/2;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2061 x <- regionset.intersection.c(list(x),do.union=T)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2062 return(c(n=length(which(points.within(abs(d),x$s,x$e)==-1)),s=diff(range(abs(d))),m=sum(x$e-x$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2063 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2064 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2065
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2066 l1 <- t.chromosome.counts(d1);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2067 l2 <- t.chromosome.counts(d2);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2068
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2069 l2 <- data.frame(do.call(rbind,l2[names(l1)]));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2070 l1 <- data.frame(do.call(rbind,l1));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2071
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2072 # genome size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2073 gs <- sum(pmax(l1$s,l2$s))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2074
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2075 den1 <- sum(l1$n)/(gs-sum(l1$m))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2076 den2 <- sum(l2$n)/(gs-sum(l2$m))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2077 return(den1/den2);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2078 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2079
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2080
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2081
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2082
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2083 # calculate cumulative density based on sum of scaled gaussian curves
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2084 # (by Michael Tolstorukov)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2085 #
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2086 # vin - input vector; bw -- standard deviation, dw-gaussina cutoff in stdev; dout - output "density")
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2087 # output - if return.x=F vector of cumulative density values corresponding to integer positions described by range(vin)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2088 # output - if return.x=T a data structure with $x and $y corresponding to the cumulative density
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2089 # optional match.wt.f is a function that will return weights for a tag vector
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2090 densum <- function(vin,bw=5,dw=3,match.wt.f=NULL,return.x=T,from=min(vin),to=max(vin),step=1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2091 # construct vector of unique tags and their counts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2092 tc <- table(vin[vin>=from & vin<=to]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2093 pos <- as.numeric(names(tc)); storage.mode(pos) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2094 tc <- as.numeric(tc); storage.mode(tc) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2095 n <- length(pos)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2096 # weight counts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2097 if(!is.null(match.wt.f)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2098 tc <- tc*match.wt.f(pos);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2099 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2100
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2101 rng <- c(from,to);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2102 if(rng[1]<0) { stop("range extends into negative values") }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2103 if(range(pos)[1]<0) { stop("position vector contains negative values") }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2104
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2105 storage.mode(n) <- storage.mode(rng) <- storage.mode(bw) <- storage.mode(dw) <- storage.mode(step) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2106
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2107 spos <- rng[1]; storage.mode(spos) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2108
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2109 dlength <- floor((rng[2] - rng[1])/step) + 1; # length of output array
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2110 if(dlength<1) { stop("zero data range") }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2111 dout <- numeric(dlength); storage.mode(dout) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2112 storage.mode(dlength) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2113 .C("cdensum",n,pos,tc,spos,bw,dw,dlength,step,dout,DUP=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2114
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2115 if(return.x) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2116 return(list(x=c(rng[1],rng[1]+step*(dlength-1)),y=dout,step=step))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2117 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2118 return(dout)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2119 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2120 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2121
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2122 # count tags within sliding window of a specified size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2123 # vin - tag vector (postive values, pre-shifted)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2124 # window.size/window.step - window characteristics
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2125 # tv - optional, pre-sorted, pre-trimmed tag vector
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2126 window.tag.count <- function(vin,window.size,window.step=1,return.x=T,from=min(vin)+floor(window.size/2),to=max(vin)-floor(window.size/2),tv=NULL) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2127 whs <- floor(window.size/2);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2128 # select tags with margins
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2129 if(is.null(tv)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2130 tv <- sort(vin[vin>=from-whs-1 & vin<=to+whs+1])
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2131 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2132 storage.mode(tv) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2133 n <- length(tv)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2134 nsteps <- ceiling((to-from)/window.step);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2135
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2136 storage.mode(n) <- storage.mode(nsteps) <- storage.mode(window.size) <- storage.mode(window.step) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2137
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2138 spos <- from; storage.mode(spos) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2139
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2140 if(nsteps<1) { stop("zero data range") }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2141 #dout <- integer(nsteps); storage.mode(dout) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2142 #.C("window_n_tags",n,tv,spos,window.size,window.step,nsteps,dout,DUP=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2143 dout <- .Call("cwindow_n_tags",tv,spos,window.size,window.step,nsteps);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2144
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2145 if(return.x) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2146 return(list(x=c(from,from+(nsteps-1)*window.step),y=dout,step=window.step))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2147 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2148 return(dout)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2149 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2150 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2151
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2152 # count tags in windows around specified positions (pos)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2153 window.tag.count.around <- function(vin,window.size,pos,return.x=T,tc=NULL,sorted=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2154 if(is.null(tc)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2155 tc <- table(vin);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2156 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2157 if(!sorted) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2158 op <- rank(pos);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2159 pos <- sort(pos);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2160 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2161 storage.mode(pos) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2162 tpos <- as.integer(names(tc)); storage.mode(tpos) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2163 tc <- as.integer(tc); storage.mode(tc) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2164
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2165 whs <- floor(window.size/2);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2166
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2167 storage.mode(whs) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2168 twc <- .Call("cwindow_n_tags_around",tpos,tc,pos,whs);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2169 if(return.x) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2170 if(sorted) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2171 return(data.frame(x=pos,y=twc));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2172 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2173 return(data.frame(x=pos[op],y=twc[op]));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2174 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2175 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2176 if(sorted) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2177 return(twc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2178 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2179 return(twc[op]);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2180 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2181 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2182 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2183
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2184 # given a tag vector (signed), identify and clean up (either remove or cap) singular positions that exceed local tag density
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2185 # vin - tag vector
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2186 # cap.fold - maximal fold over enrichment over local density allowed for a single tag position, at which the tag count is capped
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2187 # eliminate.fold - max fold enrichment that, when exceeded, results in exclusion of all the tags at that position (e.g. counted as anomaly)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2188 # z.threshold - Z-score used to determine max allowed counts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2189 filter.singular.positions.by.local.density <- function(tags,window.size=200,cap.fold=4,eliminate.fold=10,z.threshold=3) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2190 # tabulate tag positions
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2191 if(length(tags)<2) { return(tags); };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2192
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2193 tc <- table(tags);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2194 pos <- as.numeric(names(tc)); storage.mode(pos) <- "double";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2195 tc <- as.integer(tc); storage.mode(tc) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2196 n <- length(pos);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2197
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2198 whs <- floor(window.size/2);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2199
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2200 storage.mode(n) <- storage.mode(whs) <- "integer";
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2201 twc <- .Call("cwindow_n_tags_around",pos,tc,pos,whs);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2202 twc <- (twc-tc+1)/window.size; # local density
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2203
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2204 pv <- pnorm(z.threshold,lower.tail=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2205 # exclude
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2206 max.counts <- qpois(pv,twc*eliminate.fold,lower.tail=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2207 tc[tc>max.counts] <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2208 # cap
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2209 max.counts <- qpois(pv,twc*cap.fold,lower.tail=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2210 ivi <- which(tc>max.counts);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2211 tc[ivi] <- max.counts[ivi]+1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2212
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2213 # reconstruct tag vector
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2214 tv <- rep(pos,tc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2215 to <- order(abs(tv)); tv <- tv[to];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2216 return(tv);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2217 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2218
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2219
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2220
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2221 # calculates enrichment bounds using multiple background scales
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2222 # ft - foreground tags (pre-shifted, positive)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2223 # bt - background tags
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2224 # fws - foreground window size
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2225 # bwsl - background window size list
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2226 # step - window step
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2227 # rng - from/to coordinates (to will be adjusted according to step)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2228 #
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2229 # returns: a list with $x ($s $e $step), $lb vector and $mle vector ($ub if calculate.upper.bound=T)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2230 mbs.enrichment.bounds <- function(ft,bt,fws,bwsl,step=1,rng=NULL,alpha=0.05,calculate.upper.bound=F,bg.weight=length(ft)/length(bt),use.most.informative.scale=F,quick.calculation=F,pos=NULL) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2231 # determine range
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2232 if(is.null(rng)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2233 rng <- range(range(ft));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2234 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2235 # foreground counts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2236 if(is.null(pos)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2237 fwc <- window.tag.count(ft,fws,window.step=step,from=rng[1],to=rng[2],return.x=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2238 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2239 fwc <- window.tag.count.around(ft,fws,pos,return.x=T)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2240 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2241 fwc$y <- fwc$y+0.5;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2242
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2243 zal <- qnorm(alpha/2,lower.tail=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2244
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2245 # background counts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2246 bt <- sort(bt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2247 if(!is.null(pos)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2248 tc <- table(bt);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2249 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2250 bgcm <- lapply(bwsl,function(bgws) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2251 if(is.null(pos)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2252 window.tag.count(bt,bgws,window.step=step,from=rng[1],to=rng[2],return.x=F,tv=bt)+0.5;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2253 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2254 window.tag.count.around(bt,bgws,pos,return.x=F,tc=tc)+0.5
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2255 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2256 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2257 if(!is.null(pos)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2258 rm(tc);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2259 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2260
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2261 # pick most informative scale
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2262 if(use.most.informative.scale) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2263 bgcm <- t(do.call(cbind,bgcm))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2264 isi <- max.col(t((bgcm)/(bwsl/fws))) # add pseudo-counts to select lowest scale in case of a tie
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2265
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2266 bgc <- c(bgcm)[isi+dim(bgcm)[1]*(c(1:length(isi))-1)]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2267
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2268 if(quick.calculation) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2269 rte <- fwc$y+bgc-0.25zalzal; rte[rte<0] <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2270 dn <- bgc - 0.25zalzal;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2271 lbm=(sqrt(fwc$ybgc) - 0.5zal*sqrt(rte))/dn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2272 ivi <- which(lbm<0);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2273 lbm <- lbmlbmbwsl[isi]/fws/bg.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2274 lbm[rte<=0] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2275 lbm[dn<=0] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2276 lbm[ivi] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2277 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2278 lbm <- (fwc$y/bgc)qf(1-alpha/2,2fwc$y,2bgc,lower.tail=F)bwsl[isi]/fws/bg.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2279 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2280
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2281 mle <- fwc$y/bgc*bwsl[isi]/fws/bg.weight; mle[is.nan(mle)] <- Inf; mle[is.na(mle)] <- Inf;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2282
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2283 rl <- list(x=list(s=fwc$x[1],e=fwc$x[2],step=fwc$step),lb=lbm,mle=mle);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2284
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2285 if(calculate.upper.bound) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2286 isi <- max.col(t((-bgcm)/(bwsl/fws))) # add pseudo-counts to select highest scale in case of a tie
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2287 bgc <- c(bgcm)[isi+dim(bgcm)[1]*(c(1:length(isi))-1)]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2288
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2289 if(quick.calculation) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2290 ubm=(sqrt(fwc$ybgc) + 0.5zal*sqrt(rte))/dn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2291 ivi <- which(ubm<0);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2292 ubm <- ubmubmbwsl[isi]/fws/bg.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2293 ubm[rte<=0] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2294 ubm[ivi] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2295 lbm[dn<=0] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2296 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2297 ubm <- (fwc$y/bgc)qf(alpha/2,2fwc$y,2bgc,lower.tail=F)bwsl[isi]/fws/bg.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2298 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2299 rl <- c(rl,list(ub=ubm));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2300 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2301 return(rl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2302
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2303 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2304 # determine lower bounds
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2305 lbm <- lapply(c(1:length(bgcm)),function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2306 nbg <- bgcm[[i]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2307 if(quick.calculation) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2308 rte <- fwc$y+nbg-0.25zalzal; rte[rte<0] <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2309 dn <- (nbg - 0.25zalzal);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2310 lbm=(sqrt(fwc$ynbg) - 0.5zal*sqrt(rte))/dn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2311 ivi <- which(lbm<0);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2312 lbm <- lbmlbmbwsl[i]/fws/bg.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2313 lbm[rte<=0] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2314 lbm[dn<=0] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2315 lbm[ivi] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2316 return(lbm);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2317 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2318 return((fwc$y/nbg)qf(1-alpha/2,2fwc$y,2nbg,lower.tail=F)bwsl[i]/fws/bg.weight);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2319 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2320 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2321 lbm <- do.call(pmin,lbm);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2322
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2323 # calculate mle
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2324 #mle <- do.call(pmin,lapply(bgcm,function(bgc) fwc/bgc))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2325 mle <- do.call(pmin,lapply(c(1:length(bgcm)),function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2326 bgc <- bgcm[[i]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2327 x <- fwc$y/bgc*bwsl[i]/fws/bg.weight; x[is.nan(x)] <- Inf; x[is.na(x)] <- Inf; return(x);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2328 }))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2329
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2330 rl <- list(x=list(s=fwc$x[1],e=fwc$x[2],step=fwc$step),lb=lbm,mle=mle);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2331
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2332 if(calculate.upper.bound) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2333 # determine upper bound
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2334 ubm <- lapply(c(1:length(bgcm)),function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2335 nbg <- bgcm[[i]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2336 if(quick.calculation) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2337 rte <- fwc$y+nbg-0.25zalzal; rte[rte<0] <- 0;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2338 dn <- (nbg - 0.25zalzal);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2339 ubm=(sqrt(fwc$ynbg) + 0.5zal*sqrt(rte))/dn;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2340 ivi <- which(ubm<0);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2341 ubm <- ubmubmbwsl[i]/fws/bg.weight;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2342 ubm[rte<=0] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2343 ubm[dn<=0] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2344 ubm[ivi] <- 1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2345 return(ubm);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2346 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2347 return((fwc$y/nbg)qf(alpha/2,2fwc$y,2nbg,lower.tail=F)bwsl[i]/fws/bg.weight);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2348 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2349 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2350 ubm <- do.call(pmax,ubm);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2351 rl <- c(rl,list(ub=ubm));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2352 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2353
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2354 return(rl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2355 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2356 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2357
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2358 write.probe.wig <- function(chr,pos,val,fname,append=F,feature="M",probe.length=35,header=T) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2359 min.dist <- min(diff(pos));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2360 if(probe.length>=min.dist) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2361 probe.length <- min.dist-1;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2362 cat("warning: adjusted down wig segment length to",probe.length,"\n");
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2363 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2364 mdat <- data.frame(chr,as.integer(pos),as.integer(pos+probe.length),val)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2365
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2366 if(header) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2367 write(paste("track type=wiggle_0 name=\"Bed Format\" description=\"",feature,"\" visibility=dense color=200,100,0 altColor=0,100,200 priority=20",sep=""),file=fname,append=append)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2368 write.table(mdat,file=fname,col.names=F,row.names=F,quote=F,sep=" ",append=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2369 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2370 write.table(mdat,file=fname,col.names=F,row.names=F,quote=F,sep=" ",append=append);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2371 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2372
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2373 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2374
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2375 # returns intersection of multiple region sets
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2376 # each regionset needs to contain $s, $e and optional $v column
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2377 regionset.intersection.c <- function(rsl,max.val=-1,do.union=F) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2378 # translate into position/flag form
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2379 rfl <- lapply(rsl,function(rs) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2380 rp <- c(rs$s,rs$e); rf <- c(rep(c(1,-1),each=length(rs$s)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2381
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2382 ro <- order(rp);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2383 rp <- rp[ro]; rf <- rf[ro];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2384 if(!is.null(rs$v)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2385 rv <- c(rs$v,rs$v)[ro];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2386 return(data.frame(p=as.numeric(rp),f=as.integer(rf),v=as.numeric(rv)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2387 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2388 return(data.frame(p=as.numeric(rp),f=as.integer(rf)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2389 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2390 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2391 rfd <- data.frame(do.call(rbind,lapply(1:length(rfl),function(i) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2392 d <- rfl[[i]]; d$f <- d$f*i; return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2393 })))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2394 rfd <- rfd[order(rfd$p),];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2395 if(is.null(rfd$v)) { max.val <- 0; }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2396 if(do.union) { ur <- 1; } else { ur <- 0; };
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2397 rl <- .Call("region_intersection",as.integer(length(rfl)),as.numeric(rfd$p),as.integer(rfd$f),as.numeric(rfd$v),as.integer(max.val),as.integer(ur));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2398 return(data.frame(do.call(cbind,rl)));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2399 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2400
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2401
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2402 # idenfity if binding peak falls within a larger region of significant tag enrichment, and if so record its booundaries
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2403 add.broad.peak.regions <- function(chip.tags,input.tags,bp,window.size=500,z.thr=2) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2404 se <- find.significantly.enriched.regions(chip.tags,input.tags,window.size=window.size,z.thr=z.thr,poisson.z=0,poisson.ratio=0,either=F)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2405 chrl <- names(bp$npl); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2406 bnpl <- lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2407 npl <- bp$npl[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2408 if(is.null(npl) \| dim(npl)[1]<1) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2409 return(npl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2410 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2411 pi <- points.within(npl$x,se[[chr]]$s,se[[chr]]$e,return.list=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2412
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2413 pm <- do.call(rbind,lapply(pi,function(rl) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2414 if(length(rl)>0) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2415 return(range(c(se[[chr]]$s[rl],se[[chr]]$e[rl])))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2416 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2417 return(c(NA,NA));
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2418 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2419 }))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2420
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2421 npl$rs <- pm[,1];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2422 npl$re <- pm[,2];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2423 return(npl);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2424 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2425 bp$npl <- bnpl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2426 return(bp);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2427 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2428
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2429 # writing out binding results in a narrowpeak format, incorporating broad region boundaries if they are present
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2430 # if broad region info is not present, margin is used to determine region width. The default margin is equal
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2431 # to the window half size used to call the binding peaks
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2432 write.narrowpeak.binding <- function(bd,fname,margin=bd$whs,npeaks=NA) { # Anshul: added npeaks option
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2433 if(is.null(margin)) { margin <- 50; }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2434 chrl <- names(bd$npl); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2435 md <- do.call(rbind,lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2436 df <- bd$npl[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2437 x <- df$x;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2438 rs <- df$rs; if(is.null(rs)) { rs <- rep(NA,length(x)) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2439 re <- df$re; if(is.null(re)) { re <- rep(NA,length(x)) }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2440 #ivi <- which(is.na(rs)); if(any(ivi)) {rs[ivi] <- x[ivi]-margin;}
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2441 ivi <- which(is.na(rs)); if(any(ivi)) {rs[ivi] <- pmax(0,x[ivi]-margin);} # Anshul: added the pmax (0, ...) to avoid negative peak starts
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2442 ivi <- which(is.na(re)); if(any(ivi)) {re[ivi] <- x[ivi]+margin;}
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2443 #cbind(chr,rs,re,".","0",".",df$y,-1,format(df$fdr,scientific=T,digits=3),x-rs)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2444 cbind(chr,rs,re,".","0",".",df$y,-1,-log10(df$fdr),x-rs) # Anshul: converted fdr to -log10
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2445 }))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2446 md <- md[order(as.numeric(md[,7]),decreasing=T),]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2447 if (!is.na(npeaks)) { # Anshul: added this option to print a limited number of peaks
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2448 npeaks <- min(nrow(md),npeaks)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2449 md <- md[1:npeaks,]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2450 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2451 write.table(md,file=fname,col.names=F,row.names=F,quote=F,sep="\t",append=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2452 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2453
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2454
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2455 get.broad.enrichment.clusters <- function(signal.data,control.data,window.size=1e3,z.thr=3, tag.shift=146/2,background.density.scaling=F, ... ) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2456 # find significantly enriched clusters
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2457 bg.weight <- dataset.density.ratio(signal.data,control.data,background.density.scaling=background.density.scaling);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2458 se <- find.significantly.enriched.regions(signal.data,control.data,window.size=window.size,z.thr=z.thr,tag.shift=tag.shift, bg.weight=bg.weight, ...)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2459 chrl <- names(se); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2460 se <- lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2461 d <- se[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2462 if(length(d$s>1)) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2463 d <- regionset.intersection.c(list(d,d),do.union=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2464 sc <- points.within(abs(signal.data[[chr]]+tag.shift),d$s,d$e,return.point.counts=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2465 cc <- points.within(abs(control.data[[chr]]+tag.shift),d$s,d$e,return.point.counts=T);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2466 d$rv <- log2((sc+1)/(cc+1)/bg.weight);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2467 return(d);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2468 } else {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2469 return(d)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2470 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2471 })
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2472 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2473
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2474 write.broadpeak.info <- function(bp,fname) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2475 chrl <- names(bp); names(chrl) <- chrl;
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2476 chrl <- chrl[unlist(lapply(bp,function(d) length(d$s)))>0]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2477 md <- do.call(rbind,lapply(chrl,function(chr) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2478 df <- bp[[chr]];
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2479 cbind(chr,df$s,df$e,".","0",".",df$rv,-1,-1)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2480 }))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2481 md <- md[order(as.numeric(md[,7]),decreasing=T),]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2482 write.table(md,file=fname,col.names=F,row.names=F,quote=F,sep="\t",append=F);
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2483 }
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2484
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2485
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2486 get.clusters2 <- function(x,CL) {
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2487 temp <- which(diff(x) != 0)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2488 begin <- c(1, temp + 1)
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2489 end <- c(temp, length(x))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2490 size <- end - begin + 1
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2491
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2492 begin <- begin[size >= CL]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2493 end <- end[size >= CL]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2494 size <- size[size >= CL]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2495
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2496 size <- size[x[end] != 0]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2497 begin <- begin[x[end] != 0]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2498 end <- end[x[end] != 0]
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2499
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2500 return (list(size=size,begin=begin,end=end))
ce08b0efa3fd Uploaded zzhou parents: diff changeset	2501 }

Mercurial > repos > zzhou > spp_phantompeak

annotate spp/R/zroutines.R @ 6:ce08b0efa3fd draft