region_motif_enrichment: region_motif

annotate region_motif_compare.r @ 31:0e031bf8c5b1 draft

Uploaded

author	jeremyjliu
date	Wed, 04 Feb 2015 13:52:22 -0500
parents	4439b2ed86e9
children	9525574f700f

rev	line source
19 4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	1 # Name: region_motif_compare.r
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	2 # Description: Reads in two count files and determines enriched and depleted
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	3 # motifs (or any location based feature) based on poisson tests and gc
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	4 # corrections. All enrichment ratios relative to overall count / gc ratios.
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	5 # Author: Jeremy liu
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	6 # Email: jeremy.liu@yale.edu
31 0e031bf8c5b1 Uploaded jeremyjliu parents: 19 diff changeset	7 # Date: 15/02/04
19 4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	8 # Note: This script is meant to be invoked with the following command
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	9 # R --slave --vanilla -f ./region_motif_compare.r --args <workingdir> <db> <intab1> <intab2>
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	10 # <enriched_tab> <depleted_tab> <plots_png>
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	11 # <workingdir> is working directory of galaxy installation
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	12 # <db> types: "t" test, "p" pouya, "j" jaspar jolma, "m" mouse, "c" combined
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	13 # Dependencies: plotting.r
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	14
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	15 # Auxiliary function to concatenate multiple strings
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	16 concat <- function(...) {
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	17 input_list <- list(...)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	18 return(paste(input_list, sep="", collapse=""))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	19 }
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	20
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	21 # Supress all warning messages to prevent Galaxy treating warnings as errors
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	22 options(warn=-1)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	23
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	24 # Set common and data directories
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	25 args <- commandArgs()
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	26 workingDir = args[7]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	27 dbCode = args[8]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	28 # dbCode "c" implemented when pwmFile is loaded
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	29 if (dbCode == "t" \| dbCode == "p") {
31 0e031bf8c5b1 Uploaded jeremyjliu parents: 19 diff changeset	30 pwmFile = concat(workingDir, "/pwms/pouya.pwms.from.seq.RData")
19 4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	31 } else if (dbCode == "j") {
31 0e031bf8c5b1 Uploaded jeremyjliu parents: 19 diff changeset	32 pwmFile = concat(workingDir, "/pwms/jaspar.jolma.pwms.from.seq.RData")
19 4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	33 } else if (dbCode == "m") {
31 0e031bf8c5b1 Uploaded jeremyjliu parents: 19 diff changeset	34 pwmFile = concat(workingDir, "/pwms/mm9.pwms.from.seq.RData")
19 4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	35 } else if (dbCode == "c") { # rest of dbCode "c" implemeted when pwmFile loaded
31 0e031bf8c5b1 Uploaded jeremyjliu parents: 19 diff changeset	36 pwmFile = concat(workingDir, "/pwms/pouya.pwms.from.seq.RData")
0e031bf8c5b1 Uploaded jeremyjliu parents: 19 diff changeset	37 pwmFile2 = concat(workingDir, "/pwms/jaspar.jolma.pwms.from.seq.RData")
19 4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	38 } else {
31 0e031bf8c5b1 Uploaded jeremyjliu parents: 19 diff changeset	39 pwmFile = concat(workingDir, "/pwms/pouya.pwms.from.seq.RData")
19 4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	40 }
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	41
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	42 # Set input and reference files
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	43 inTab1 = args[9]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	44 inTab2 = args[10]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	45 enrichTab = args[11]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	46 depleteTab = args[12]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	47 plotsPng = args[13]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	48
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	49 # Load dependencies
31 0e031bf8c5b1 Uploaded jeremyjliu parents: 19 diff changeset	50 source(concat(workingDir, "/plotting.r"))
19 4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	51
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	52 # Auxiliary function to read in tab file and prepare the data
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	53 read_tsv <- function(file) {
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	54 data = read.table(file, sep="\t", stringsAsFactors=FALSE)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	55 names(data)[names(data) == "V1"] = "motif"
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	56 names(data)[names(data) == "V2"] = "counts"
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	57 return(data)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	58 }
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	59
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	60 startTime = Sys.time()
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	61 cat("Running ... Started at:", format(startTime, "%a %b %d %X %Y"), "...\n")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	62
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	63 # Loading motif position weight matrix (pwm) file and input tab file
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	64 cat("Loading and reading input region motif count files...\n")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	65 load(pwmFile) # pwms data structure
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	66 if (dbCode == "c") { # Remaining implementation of dbCode "c" combined
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	67 temp = pwms
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	68 load(pwmFile2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	69 pwms = append(temp, pwms)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	70 }
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	71 region1DF = read_tsv(inTab1)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	72 region2DF = read_tsv(inTab2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	73 region1Counts = region1DF$counts
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	74 region2Counts = region2DF$counts
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	75 names(region1Counts) = region1DF$motif
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	76 names(region2Counts) = region2DF$motif
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	77
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	78 # Processing count vectors to account for missing 0 count motifs, then sorting
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	79 cat("Performing 0 count correction and sorting...\n")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	80 allNames = union(names(region1Counts), names(region2Counts))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	81 region1Diff = setdiff(allNames, names(region1Counts))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	82 region2Diff = setdiff(allNames, names(region2Counts))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	83 addCounts1 = rep(0, length(region1Diff))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	84 addCounts2 = rep(0, length(region2Diff))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	85 names(addCounts1) = region1Diff
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	86 names(addCounts2) = region2Diff
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	87 newCounts1 = append(region1Counts, addCounts1)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	88 newCounts2 = append(region2Counts, addCounts2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	89 region1Counts = newCounts1[sort.int(names(newCounts1), index.return=TRUE)$ix]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	90 region2Counts = newCounts2[sort.int(names(newCounts2), index.return=TRUE)$ix]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	91
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	92 # Generate gc content matrix
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	93 gc = sapply(pwms, function(i) mean(i[2:3,3:18]))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	94
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	95 # Apply poisson test, calculate p and q values, and filter significant results
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	96 cat("Applying poisson test...\n")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	97 rValue = sum(region2Counts) / sum(region1Counts)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	98 pValue = sapply(seq(along=region1Counts), function(i) {
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	99 poisson.test(c(region1Counts[i], region2Counts[i]), r=1/rValue)$p.value
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	100 })
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	101 qValue = p.adjust(pValue, "fdr")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	102 indices = which(qValue<0.1 & abs(log2(region1Counts/region2Counts/rValue))>log2(1.5))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	103
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	104 # Setting up output diagnostic plots, 4 in 1 png image
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	105 png(plotsPng, width=800, height=800)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	106 xlab = "region1_count"
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	107 ylab = "region2_count"
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	108 lim = c(0.5, 5000)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	109 layout(matrix(1:4, ncol=2))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	110 par(mar=c(5, 5, 5, 1))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	111
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	112 # Plot all motif counts along the linear correlation coefficient
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	113 plot.scatter(region1Counts+0.5, region2Counts+0.5, log="xy", xlab=xlab, ylab=ylab,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	114 cex.lab=2.2, cex.axis=1.8, xlim=lim, ylim=lim*rValue)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	115 abline(0, rValue, untf=T)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	116 abline(0, rValue*2, untf=T, lty=2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	117 abline(0, rValue/2, untf=T, lty=2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	118
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	119 # Plot enriched and depleted motifs in red, housed in second plot
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	120 plot.scatter(region1Counts+0.5, region2Counts+0.5, log="xy", xlab=xlab, ylab=ylab,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	121 cex.lab=2.2, cex.axis=1.8, xlim=lim, ylim=lim*rValue)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	122 points(region1Counts[indices]+0.5, region2Counts[indices]+0.5, col="red")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	123 abline(0, rValue, untf=T)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	124 abline(0, rValue*2, untf=T, lty=2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	125 abline(0, rValue/2, untf=T, lty=2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	126
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	127 # Apply and plot gc correction and loess curve
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	128 cat("Applying gc correction, rerunning poisson test...\n")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	129 ind = which(region1Counts>5)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	130 gc = gc[names(region2Counts)] # Reorder the indices of pwms to match input data
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	131 lo = plot.scatter(gc,log2(region2Counts/region1Counts),draw.loess=T,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	132 xlab="gc content of motif",ylab=paste("log2(",ylab,"/",xlab,")"),
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	133 cex.lab=2.2,cex.axis=1.8,ind=ind) # This function is in plotting.r
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	134 gcCorrection = 2^approx(lo$loess,xout=gc,rule=2)$y
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	135
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	136 # Recalculate p and q values, and filter for significant entries
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	137 pValueGC = sapply(seq(along=region1Counts),function(i) {
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	138 poisson.test(c(region1Counts[i],region2Counts[i]),r=1/gcCorrection[i])$p.value
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	139 })
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	140 qValueGC=p.adjust(pValueGC,"fdr")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	141 indicesGC = which(qValueGC<0.1 & abs(log2(region1Counts/region2Counts*gcCorrection))>log2(1.5))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	142
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	143 # Plot gc corrected motif counts
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	144 plot.scatter(region1Counts+0.5, (region2Counts+0.5)/gcCorrection, log="xy",
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	145 xlab=xlab, ylab=paste(ylab,"(normalized)"), cex.lab=2.2, cex.axis=1.8,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	146 xlim=lim, ylim=lim)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	147 points(region1Counts[indicesGC]+0.5,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	148 (region2Counts[indicesGC]+0.5)/gcCorrection[indicesGC], col="red")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	149 abline(0,1)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	150 abline(0,1*2,untf=T,lty=2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	151 abline(0,1/2,untf=T,lty=2)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	152
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	153 # Trim results, compile statistics and output to file
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	154 # Only does so if significant results are computed
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	155 if(length(indicesGC) > 0) {
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	156 # Calculate expected counts and enrichment ratios
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	157 cat("Calculating statistics...\n")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	158 nullExpect = region1Counts * gcCorrection
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	159 enrichment = region2Counts / nullExpect
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	160
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	161 # Reorder selected indices in ascending pvalue
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	162 cat("Reordering by ascending pvalue...\n")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	163 indicesReorder = indicesGC[order(pValueGC[indicesGC])]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	164
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	165 # Combine data into one data frame and output to two files
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	166 cat("Splitting and outputting data...\n")
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	167 outDF = data.frame(motif=names(pValueGC), p=as.numeric(pValueGC), q=qValueGC,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	168 stringsAsFactors=F, region_1_count=region1Counts,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	169 null_expectation=round(nullExpect,2), region_2_count=region2Counts,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	170 enrichment=enrichment)[indicesReorder,]
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	171 names(outDF)[which(names(outDF)=="region_1_count")]=xlab
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	172 names(outDF)[which(names(outDF)=="region_2_count")]=ylab
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	173 indicesEnrich = which(outDF$enrichment>1)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	174 indicesDeplete = which(outDF$enrichment<1)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	175 outDF$enrichment = ifelse(outDF$enrichment>1,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	176 round(outDF$enrichment,3),
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	177 paste("1/",round(1/outDF$enrichment,3)))
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	178 write.table(outDF[indicesEnrich,], file=enrichTab, quote=FALSE,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	179 sep="\t", append=FALSE, row.names=FALSE, col.names=TRUE)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	180 write.table(outDF[indicesDeplete,], file=depleteTab, quote=FALSE,
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	181 sep="\t", append=FALSE, row.names=FALSE, col.names=TRUE)
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	182 }
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	183
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	184 # Catch display messages and output timing information
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	185 catchMessage = dev.off()
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	186 cat("Done. Job started at:", format(startTime, "%a %b %d %X %Y."),
4439b2ed86e9 Uploaded jeremyjliu parents: diff changeset	187 "Job ended at:", format(Sys.time(), "%a %b %d %X %Y."), "\n")

Mercurial > repos > jeremyjliu > region_motif_enrichment

annotate region_motif_compare.r @ 31:0e031bf8c5b1 draft