differential_count_models: rgedgeRpaired

annotate rgedgeRpaired_nocamera.xml @ 146:474c08e747b6 draft

Uploaded

author	iuc
date	Tue, 28 Apr 2015 22:56:54 -0400
parents
children	3107df74056e

rev	line source
146 474c08e747b6 Uploaded iuc parents: diff changeset	1 <?xml version="1.0"?>
474c08e747b6 Uploaded iuc parents: diff changeset	2 <tool id="rgdifferentialcount" name="Differential_Count" version="0.28">
474c08e747b6 Uploaded iuc parents: diff changeset	3 <description>models using BioConductor packages</description>
474c08e747b6 Uploaded iuc parents: diff changeset	4 <requirements>
474c08e747b6 Uploaded iuc parents: diff changeset	5 <requirement type="package" version="3.1.2">R</requirement>
474c08e747b6 Uploaded iuc parents: diff changeset	6 <requirement type="package" version="1.3.18">graphicsmagick</requirement>
474c08e747b6 Uploaded iuc parents: diff changeset	7 <requirement type="package" version="9.10">ghostscript</requirement>
474c08e747b6 Uploaded iuc parents: diff changeset	8 <requirement type="package" version="2.14">biocbasics</requirement>
474c08e747b6 Uploaded iuc parents: diff changeset	9 </requirements>
474c08e747b6 Uploaded iuc parents: diff changeset	10 <command interpreter="python">
474c08e747b6 Uploaded iuc parents: diff changeset	11 rgToolFactory.py --script_path "$runme" --interpreter "Rscript" --tool_name "Differential_Counts"
474c08e747b6 Uploaded iuc parents: diff changeset	12 --output_dir "$html_file.files_path" --output_html "$html_file" --make_HTML "yes"
474c08e747b6 Uploaded iuc parents: diff changeset	13 </command>
474c08e747b6 Uploaded iuc parents: diff changeset	14 <inputs>
474c08e747b6 Uploaded iuc parents: diff changeset	15 <param name="input1" type="data" format="tabular" label="Select an input matrix - rows are contigs, columns are counts for each sample" help="Use the HTSeq based count matrix preparation tool to create these matrices from BAM/SAM files and a GTF file of genomic features"/>
474c08e747b6 Uploaded iuc parents: diff changeset	16 <param name="title" type="text" value="Differential Counts" size="80" label="Title for job outputs" help="Supply a meaningful name here to remind you what the outputs contain">
474c08e747b6 Uploaded iuc parents: diff changeset	17 <sanitizer invalid_char="">
474c08e747b6 Uploaded iuc parents: diff changeset	18 <valid initial="string.letters,string.digits">
474c08e747b6 Uploaded iuc parents: diff changeset	19 <add value="_"/>
474c08e747b6 Uploaded iuc parents: diff changeset	20 </valid>
474c08e747b6 Uploaded iuc parents: diff changeset	21 </sanitizer>
474c08e747b6 Uploaded iuc parents: diff changeset	22 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	23 <param name="treatment_name" type="text" value="Treatment" size="50" label="Treatment Name"/>
474c08e747b6 Uploaded iuc parents: diff changeset	24 <param name="Treat_cols" label="Select columns containing treatment." type="data_column" data_ref="input1" numerical="True" multiple="true" use_header_names="true" size="120" display="checkboxes" force_select="True">
474c08e747b6 Uploaded iuc parents: diff changeset	25 <validator type="no_options" message="Please select at least one column."/>
474c08e747b6 Uploaded iuc parents: diff changeset	26 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	27 <param name="control_name" type="text" value="Control" size="50" label="Control Name"/>
474c08e747b6 Uploaded iuc parents: diff changeset	28 <param name="Control_cols" label="Select columns containing control." type="data_column" data_ref="input1" numerical="True" multiple="true" use_header_names="true" size="120" display="checkboxes" force_select="True">
474c08e747b6 Uploaded iuc parents: diff changeset	29 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	30 <param name="subjectids" type="text" optional="true" size="120" value="" label="IF SUBJECTS NOT ALL INDEPENDENT! Enter comma separated strings to indicate sample labels for (eg) pairing - must be one for every column in input" help="Leave blank if no pairing, but eg if data from sample id A99 is in columns 2,4 and id C21 is in 3,5 then enter 'A99,C21,A99,C21'">
474c08e747b6 Uploaded iuc parents: diff changeset	31 <sanitizer>
474c08e747b6 Uploaded iuc parents: diff changeset	32 <valid initial="string.letters,string.digits">
474c08e747b6 Uploaded iuc parents: diff changeset	33 <add value=","/>
474c08e747b6 Uploaded iuc parents: diff changeset	34 </valid>
474c08e747b6 Uploaded iuc parents: diff changeset	35 </sanitizer>
474c08e747b6 Uploaded iuc parents: diff changeset	36 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	37 <param name="fQ" type="float" value="0.3" size="5" label="Non-differential contig count quantile threshold - zero to analyze all non-zero read count contigs" help="May be a good or a bad idea depending on the biology and the question. EG 0.3 = sparsest 30% of contigs with at least one read are removed before analysis"/>
474c08e747b6 Uploaded iuc parents: diff changeset	38 <param name="useNDF" type="boolean" truevalue="T" falsevalue="F" checked="false" size="1" label="Non differential filter - remove contigs below a threshold (1 per million) for half or more samples" help="May be a good or a bad idea depending on the biology and the question. This was the old default. Quantile based is available as an alternative"/>
474c08e747b6 Uploaded iuc parents: diff changeset	39 <conditional name="edgeR">
474c08e747b6 Uploaded iuc parents: diff changeset	40 <param name="doedgeR" type="select" label="Run this model using edgeR" help="edgeR uses a negative binomial model and seems to be powerful, even with few replicates">
474c08e747b6 Uploaded iuc parents: diff changeset	41 <option value="F">Do not run edgeR</option>
474c08e747b6 Uploaded iuc parents: diff changeset	42 <option value="T" selected="true">Run edgeR</option>
474c08e747b6 Uploaded iuc parents: diff changeset	43 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	44 <when value="T">
474c08e747b6 Uploaded iuc parents: diff changeset	45 <param name="edgeR_priordf" type="integer" value="10" size="3" label="prior.df for tagwise dispersion - larger value = more squeezing of tag dispersions to common dispersion. Replaces prior.n and prior.df = prior.n * residual.df" help="10 = edgeR default. Use a larger value to 'smooth' small samples. See edgeR docs and note below"/>
474c08e747b6 Uploaded iuc parents: diff changeset	46 <param name="edgeR_robust_method" type="select" value="20" size="3" label="Use robust dispersion method" help="Use ordinary, anscombe or deviance robust deviance estimates">
474c08e747b6 Uploaded iuc parents: diff changeset	47 <option value="ordinary" selected="true">Use ordinary deviance estimates</option>
474c08e747b6 Uploaded iuc parents: diff changeset	48 <option value="deviance">Use robust deviance estimates</option>
474c08e747b6 Uploaded iuc parents: diff changeset	49 <option value="anscombe">use Anscombe robust deviance estimates</option>
474c08e747b6 Uploaded iuc parents: diff changeset	50 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	51 </when>
474c08e747b6 Uploaded iuc parents: diff changeset	52 <when value="F"/>
474c08e747b6 Uploaded iuc parents: diff changeset	53 </conditional>
474c08e747b6 Uploaded iuc parents: diff changeset	54 <conditional name="DESeq2">
474c08e747b6 Uploaded iuc parents: diff changeset	55 <param name="doDESeq2" type="select" label="Run the same model with DESeq2 and compare findings" help="DESeq2 is an update to the DESeq package. It uses different assumptions and methods to edgeR">
474c08e747b6 Uploaded iuc parents: diff changeset	56 <option value="F" selected="true">Do not run DESeq2</option>
474c08e747b6 Uploaded iuc parents: diff changeset	57 <option value="T">Run DESeq2</option>
474c08e747b6 Uploaded iuc parents: diff changeset	58 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	59 <when value="T">
474c08e747b6 Uploaded iuc parents: diff changeset	60 <param name="DESeq_fitType" type="select">
474c08e747b6 Uploaded iuc parents: diff changeset	61 <option value="parametric" selected="true">Parametric (default) fit for dispersions</option>
474c08e747b6 Uploaded iuc parents: diff changeset	62 <option value="local">Local fit - this will automagically be used if parametric fit fails</option>
474c08e747b6 Uploaded iuc parents: diff changeset	63 <option value="mean">Mean dispersion fit- use this if you really understand what you're doing - read the fine manual linked below in the documentation</option>
474c08e747b6 Uploaded iuc parents: diff changeset	64 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	65 </when>
474c08e747b6 Uploaded iuc parents: diff changeset	66 <when value="F"> </when>
474c08e747b6 Uploaded iuc parents: diff changeset	67 </conditional>
474c08e747b6 Uploaded iuc parents: diff changeset	68 <param name="doVoom" type="select" label="Run the same model with Voom/limma and compare findings" help="Voom uses counts per million and a precise transformation of variance so count data can be analysed using limma">
474c08e747b6 Uploaded iuc parents: diff changeset	69 <option value="F" selected="true">Do not run VOOM</option>
474c08e747b6 Uploaded iuc parents: diff changeset	70 <option value="T">Run VOOM</option>
474c08e747b6 Uploaded iuc parents: diff changeset	71 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	72 <param name="fdrthresh" type="float" value="0.05" size="5" label="P value threshold for FDR filtering for amily wise error rate control" help="Conventional default value of 0.05 recommended"/>
474c08e747b6 Uploaded iuc parents: diff changeset	73 <param name="fdrtype" type="select" label="FDR (Type II error) control method" help="Use fdr or bh typically to control for the number of tests in a reliable way">
474c08e747b6 Uploaded iuc parents: diff changeset	74 <option value="fdr" selected="true">fdr</option>
474c08e747b6 Uploaded iuc parents: diff changeset	75 <option value="BH">Benjamini Hochberg</option>
474c08e747b6 Uploaded iuc parents: diff changeset	76 <option value="BY">Benjamini Yukateli</option>
474c08e747b6 Uploaded iuc parents: diff changeset	77 <option value="bonferroni">Bonferroni</option>
474c08e747b6 Uploaded iuc parents: diff changeset	78 <option value="hochberg">Hochberg</option>
474c08e747b6 Uploaded iuc parents: diff changeset	79 <option value="holm">Holm</option>
474c08e747b6 Uploaded iuc parents: diff changeset	80 <option value="hommel">Hommel</option>
474c08e747b6 Uploaded iuc parents: diff changeset	81 <option value="none">no control for multiple tests</option>
474c08e747b6 Uploaded iuc parents: diff changeset	82 </param>
474c08e747b6 Uploaded iuc parents: diff changeset	83 </inputs>
474c08e747b6 Uploaded iuc parents: diff changeset	84 <outputs>
474c08e747b6 Uploaded iuc parents: diff changeset	85 <data format="tabular" name="out_edgeR" label="${title}_topTable_edgeR.xls">
474c08e747b6 Uploaded iuc parents: diff changeset	86 <filter>edgeR['doedgeR'] == "T"</filter>
474c08e747b6 Uploaded iuc parents: diff changeset	87 </data>
474c08e747b6 Uploaded iuc parents: diff changeset	88 <data format="tabular" name="out_DESeq2" label="${title}_topTable_DESeq2.xls">
474c08e747b6 Uploaded iuc parents: diff changeset	89 <filter>DESeq2['doDESeq2'] == "T"</filter>
474c08e747b6 Uploaded iuc parents: diff changeset	90 </data>
474c08e747b6 Uploaded iuc parents: diff changeset	91 <data format="tabular" name="out_VOOM" label="${title}_topTable_VOOM.xls">
474c08e747b6 Uploaded iuc parents: diff changeset	92 <filter>doVoom == "T"</filter>
474c08e747b6 Uploaded iuc parents: diff changeset	93 </data>
474c08e747b6 Uploaded iuc parents: diff changeset	94 <data format="html" name="html_file" label="${title}.html"/>
474c08e747b6 Uploaded iuc parents: diff changeset	95 </outputs>
474c08e747b6 Uploaded iuc parents: diff changeset	96 <stdio>
474c08e747b6 Uploaded iuc parents: diff changeset	97 <exit_code range="4" level="fatal" description="Number of subject ids must match total number of samples in the input matrix"/>
474c08e747b6 Uploaded iuc parents: diff changeset	98 </stdio>
474c08e747b6 Uploaded iuc parents: diff changeset	99 <tests>
474c08e747b6 Uploaded iuc parents: diff changeset	100 <test>
474c08e747b6 Uploaded iuc parents: diff changeset	101 <param name="input1" value="test_bams2mx.xls" ftype="tabular"/>
474c08e747b6 Uploaded iuc parents: diff changeset	102 <param name="treatment_name" value="liver"/>
474c08e747b6 Uploaded iuc parents: diff changeset	103 <param name="title" value="edgeRtest"/>
474c08e747b6 Uploaded iuc parents: diff changeset	104 <param name="useNDF" value=""/>
474c08e747b6 Uploaded iuc parents: diff changeset	105 <param name="doedgeR" value="T"/>
474c08e747b6 Uploaded iuc parents: diff changeset	106 <param name="doVoom" value="T"/>
474c08e747b6 Uploaded iuc parents: diff changeset	107 <param name="doDESeq2" value="T"/>
474c08e747b6 Uploaded iuc parents: diff changeset	108 <param name="fdrtype" value="fdr"/>
474c08e747b6 Uploaded iuc parents: diff changeset	109 <param name="edgeR_priordf" value="8"/>
474c08e747b6 Uploaded iuc parents: diff changeset	110 <param name="edgeR_robust" value="ordinary"/>
474c08e747b6 Uploaded iuc parents: diff changeset	111 <param name="fdrthresh" value="0.05"/>
474c08e747b6 Uploaded iuc parents: diff changeset	112 <param name="control_name" value="heart"/>
474c08e747b6 Uploaded iuc parents: diff changeset	113 <param name="subjectids" value=""/>
474c08e747b6 Uploaded iuc parents: diff changeset	114 <param name="Control_cols" value="3,4,5,9"/>
474c08e747b6 Uploaded iuc parents: diff changeset	115 <param name="Treat_cols" value="2,6,7,8"/>
474c08e747b6 Uploaded iuc parents: diff changeset	116 <output name="out_edgeR" file="edgeRtest1out.xls" compare="diff" lines_diff="20"/>
474c08e747b6 Uploaded iuc parents: diff changeset	117 <output name="html_file" file="edgeRtest1out.html" compare="diff" lines_diff="20"/>
474c08e747b6 Uploaded iuc parents: diff changeset	118 </test>
474c08e747b6 Uploaded iuc parents: diff changeset	119 </tests>
474c08e747b6 Uploaded iuc parents: diff changeset	120 <configfiles>
474c08e747b6 Uploaded iuc parents: diff changeset	121 <configfile name="runme"><![CDATA[
474c08e747b6 Uploaded iuc parents: diff changeset	122 #
474c08e747b6 Uploaded iuc parents: diff changeset	123 # edgeR.Rscript
474c08e747b6 Uploaded iuc parents: diff changeset	124 # updated feb 2014 adding outlier-robust deviance estimate options by ross for R 3.0.2/bioc 2.13
474c08e747b6 Uploaded iuc parents: diff changeset	125 # updated npv 2011 for R 2.14.0 and edgeR 2.4.0 by ross
474c08e747b6 Uploaded iuc parents: diff changeset	126 # Performs DGE on a count table containing n replicates of two conditions
474c08e747b6 Uploaded iuc parents: diff changeset	127 #
474c08e747b6 Uploaded iuc parents: diff changeset	128 # Parameters
474c08e747b6 Uploaded iuc parents: diff changeset	129 #
474c08e747b6 Uploaded iuc parents: diff changeset	130 # 1 - Output Dir
474c08e747b6 Uploaded iuc parents: diff changeset	131
474c08e747b6 Uploaded iuc parents: diff changeset	132 # Original edgeR code by: S.Lunke and A.Kaspi
474c08e747b6 Uploaded iuc parents: diff changeset	133 reallybig = log10(.Machine\$double.xmax)
474c08e747b6 Uploaded iuc parents: diff changeset	134 reallysmall = log10(.Machine\$double.xmin)
474c08e747b6 Uploaded iuc parents: diff changeset	135 library("gplots")
474c08e747b6 Uploaded iuc parents: diff changeset	136 library("edgeR")
474c08e747b6 Uploaded iuc parents: diff changeset	137 library('stringr')
474c08e747b6 Uploaded iuc parents: diff changeset	138 hmap2 = function(cmat,nsamp=100,outpdfname='heatmap2.pdf', TName='Treatment',group=NA,myTitle='title goes here')
474c08e747b6 Uploaded iuc parents: diff changeset	139 {
474c08e747b6 Uploaded iuc parents: diff changeset	140 # Perform clustering for significant pvalues after controlling FWER
474c08e747b6 Uploaded iuc parents: diff changeset	141 samples = colnames(cmat)
474c08e747b6 Uploaded iuc parents: diff changeset	142 gu = unique(group)
474c08e747b6 Uploaded iuc parents: diff changeset	143 gn = rownames(cmat)
474c08e747b6 Uploaded iuc parents: diff changeset	144 if (length(gu) == 2) {
474c08e747b6 Uploaded iuc parents: diff changeset	145 col.map = function(g) {if (g==gu[1]) "#FF0000" else "#0000FF"}
474c08e747b6 Uploaded iuc parents: diff changeset	146 pcols = unlist(lapply(group,col.map))
474c08e747b6 Uploaded iuc parents: diff changeset	147 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	148 colours = rainbow(length(gu),start=0,end=4/6)
474c08e747b6 Uploaded iuc parents: diff changeset	149 pcols = colours[match(group,gu)] }
474c08e747b6 Uploaded iuc parents: diff changeset	150 dm = cmat[(! is.na(gn)),]
474c08e747b6 Uploaded iuc parents: diff changeset	151 # remove unlabelled hm rows
474c08e747b6 Uploaded iuc parents: diff changeset	152 nprobes = nrow(dm)
474c08e747b6 Uploaded iuc parents: diff changeset	153 # sub = paste('Showing',nprobes,'contigs ranked for evidence of differential abundance')
474c08e747b6 Uploaded iuc parents: diff changeset	154 if (nprobes > nsamp) {
474c08e747b6 Uploaded iuc parents: diff changeset	155 dm =dm[1:nsamp,]
474c08e747b6 Uploaded iuc parents: diff changeset	156 #sub = paste('Showing',nsamp,'contigs ranked for evidence for differential abundance out of',nprobes,'total')
474c08e747b6 Uploaded iuc parents: diff changeset	157 }
474c08e747b6 Uploaded iuc parents: diff changeset	158 newcolnames = substr(colnames(dm),1,20)
474c08e747b6 Uploaded iuc parents: diff changeset	159 colnames(dm) = newcolnames
474c08e747b6 Uploaded iuc parents: diff changeset	160 pdf(outpdfname)
474c08e747b6 Uploaded iuc parents: diff changeset	161 heatmap.2(dm,main=myTitle,ColSideColors=pcols,col=topo.colors(100),dendrogram="col",key=T,density.info='none',
474c08e747b6 Uploaded iuc parents: diff changeset	162 Rowv=F,scale='row',trace='none',margins=c(8,8),cexRow=0.4,cexCol=0.5)
474c08e747b6 Uploaded iuc parents: diff changeset	163 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	164 }
474c08e747b6 Uploaded iuc parents: diff changeset	165
474c08e747b6 Uploaded iuc parents: diff changeset	166 hmap = function(cmat,nmeans=4,outpdfname="heatMap.pdf",nsamp=250,TName='Treatment',group=NA,myTitle="Title goes here")
474c08e747b6 Uploaded iuc parents: diff changeset	167 {
474c08e747b6 Uploaded iuc parents: diff changeset	168 # for 2 groups only was
474c08e747b6 Uploaded iuc parents: diff changeset	169 #col.map = function(g) {if (g==TName) "#FF0000" else "#0000FF"}
474c08e747b6 Uploaded iuc parents: diff changeset	170 #pcols = unlist(lapply(group,col.map))
474c08e747b6 Uploaded iuc parents: diff changeset	171 gu = unique(group)
474c08e747b6 Uploaded iuc parents: diff changeset	172 colours = rainbow(length(gu),start=0.3,end=0.6)
474c08e747b6 Uploaded iuc parents: diff changeset	173 pcols = colours[match(group,gu)]
474c08e747b6 Uploaded iuc parents: diff changeset	174 nrows = nrow(cmat)
474c08e747b6 Uploaded iuc parents: diff changeset	175 mtitle = paste(myTitle,'Heatmap: n contigs =',nrows)
474c08e747b6 Uploaded iuc parents: diff changeset	176 if (nrows > nsamp) {
474c08e747b6 Uploaded iuc parents: diff changeset	177 cmat = cmat[c(1:nsamp),]
474c08e747b6 Uploaded iuc parents: diff changeset	178 mtitle = paste('Heatmap: Top ',nsamp,' DE contigs (of ',nrows,')',sep='')
474c08e747b6 Uploaded iuc parents: diff changeset	179 }
474c08e747b6 Uploaded iuc parents: diff changeset	180 newcolnames = substr(colnames(cmat),1,20)
474c08e747b6 Uploaded iuc parents: diff changeset	181 colnames(cmat) = newcolnames
474c08e747b6 Uploaded iuc parents: diff changeset	182 pdf(outpdfname)
474c08e747b6 Uploaded iuc parents: diff changeset	183 heatmap(cmat,scale='row',main=mtitle,cexRow=0.3,cexCol=0.4,Rowv=NA,ColSideColors=pcols)
474c08e747b6 Uploaded iuc parents: diff changeset	184 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	185 }
474c08e747b6 Uploaded iuc parents: diff changeset	186
474c08e747b6 Uploaded iuc parents: diff changeset	187 qqPlot = function(descr='qqplot',pvector, outpdf='qqplot.pdf',...)
474c08e747b6 Uploaded iuc parents: diff changeset	188 # stolen from https://gist.github.com/703512
474c08e747b6 Uploaded iuc parents: diff changeset	189 {
474c08e747b6 Uploaded iuc parents: diff changeset	190 o = -log10(sort(pvector,decreasing=F))
474c08e747b6 Uploaded iuc parents: diff changeset	191 e = -log10( 1:length(o)/length(o) )
474c08e747b6 Uploaded iuc parents: diff changeset	192 o[o==-Inf] = reallysmall
474c08e747b6 Uploaded iuc parents: diff changeset	193 o[o==Inf] = reallybig
474c08e747b6 Uploaded iuc parents: diff changeset	194 maint = descr
474c08e747b6 Uploaded iuc parents: diff changeset	195 pdf(outpdf)
474c08e747b6 Uploaded iuc parents: diff changeset	196 plot(e,o,pch=19,cex=1, main=maint, ...,
474c08e747b6 Uploaded iuc parents: diff changeset	197 xlab=expression(Expected~~-log[10](italic(p))),
474c08e747b6 Uploaded iuc parents: diff changeset	198 ylab=expression(Observed~~-log[10](italic(p))),
474c08e747b6 Uploaded iuc parents: diff changeset	199 xlim=c(0,max(e)), ylim=c(0,max(o)))
474c08e747b6 Uploaded iuc parents: diff changeset	200 lines(e,e,col="red")
474c08e747b6 Uploaded iuc parents: diff changeset	201 grid(col = "lightgray", lty = "dotted")
474c08e747b6 Uploaded iuc parents: diff changeset	202 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	203 }
474c08e747b6 Uploaded iuc parents: diff changeset	204
474c08e747b6 Uploaded iuc parents: diff changeset	205 smearPlot = function(myDGEList,deTags, outSmear, outMain)
474c08e747b6 Uploaded iuc parents: diff changeset	206 {
474c08e747b6 Uploaded iuc parents: diff changeset	207 pdf(outSmear)
474c08e747b6 Uploaded iuc parents: diff changeset	208 plotSmear(myDGEList,de.tags=deTags,main=outMain)
474c08e747b6 Uploaded iuc parents: diff changeset	209 grid(col="lightgray", lty="dotted")
474c08e747b6 Uploaded iuc parents: diff changeset	210 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	211 }
474c08e747b6 Uploaded iuc parents: diff changeset	212
474c08e747b6 Uploaded iuc parents: diff changeset	213 boxPlot = function(rawrs,cleanrs,maint,myTitle,pdfname)
474c08e747b6 Uploaded iuc parents: diff changeset	214 {
474c08e747b6 Uploaded iuc parents: diff changeset	215 nc = ncol(rawrs)
474c08e747b6 Uploaded iuc parents: diff changeset	216 ##### for (i in c(1:nc)) {rawrs[(rawrs[,i] < 0),i] = NA}
474c08e747b6 Uploaded iuc parents: diff changeset	217 fullnames = colnames(rawrs)
474c08e747b6 Uploaded iuc parents: diff changeset	218 newcolnames = substr(colnames(rawrs),1,20)
474c08e747b6 Uploaded iuc parents: diff changeset	219 colnames(rawrs) = newcolnames
474c08e747b6 Uploaded iuc parents: diff changeset	220 newcolnames = substr(colnames(cleanrs),1,20)
474c08e747b6 Uploaded iuc parents: diff changeset	221 colnames(cleanrs) = newcolnames
474c08e747b6 Uploaded iuc parents: diff changeset	222 defpar = par(no.readonly=T)
474c08e747b6 Uploaded iuc parents: diff changeset	223 print.noquote('@@@ Raw contig counts by sample:')
474c08e747b6 Uploaded iuc parents: diff changeset	224 print.noquote(summary(rawrs))
474c08e747b6 Uploaded iuc parents: diff changeset	225 print.noquote('@@@ Library size contig counts by sample:')
474c08e747b6 Uploaded iuc parents: diff changeset	226 print.noquote(summary(cleanrs))
474c08e747b6 Uploaded iuc parents: diff changeset	227 pdf(pdfname)
474c08e747b6 Uploaded iuc parents: diff changeset	228 par(mfrow=c(1,2))
474c08e747b6 Uploaded iuc parents: diff changeset	229 boxplot(rawrs,varwidth=T,notch=T,ylab='log contig count',col="maroon",las=3,cex.axis=0.35,main='log2 raw counts')
474c08e747b6 Uploaded iuc parents: diff changeset	230 grid(col="lightgray",lty="dotted")
474c08e747b6 Uploaded iuc parents: diff changeset	231 boxplot(cleanrs,varwidth=T,notch=T,ylab='log contig count',col="maroon",las=3,cex.axis=0.35,main=paste('log2 counts after ',maint))
474c08e747b6 Uploaded iuc parents: diff changeset	232 grid(col="lightgray",lty="dotted")
474c08e747b6 Uploaded iuc parents: diff changeset	233 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	234 pdfname = "sample_counts_histogram.pdf"
474c08e747b6 Uploaded iuc parents: diff changeset	235 nc = ncol(rawrs)
474c08e747b6 Uploaded iuc parents: diff changeset	236 print.noquote(paste('Using ncol rawrs=',nc))
474c08e747b6 Uploaded iuc parents: diff changeset	237 ncroot = round(sqrt(nc))
474c08e747b6 Uploaded iuc parents: diff changeset	238 if (ncroot*ncroot < nc) { ncroot = ncroot + 1 }
474c08e747b6 Uploaded iuc parents: diff changeset	239 m = c()
474c08e747b6 Uploaded iuc parents: diff changeset	240 for (i in c(1:nc)) {
474c08e747b6 Uploaded iuc parents: diff changeset	241 rhist = hist(rawrs[,i],breaks=100,plot=F)
474c08e747b6 Uploaded iuc parents: diff changeset	242 m = append(m,max(rhist\$counts))
474c08e747b6 Uploaded iuc parents: diff changeset	243 }
474c08e747b6 Uploaded iuc parents: diff changeset	244 ymax = max(m)
474c08e747b6 Uploaded iuc parents: diff changeset	245 ncols = length(fullnames)
474c08e747b6 Uploaded iuc parents: diff changeset	246 if (ncols > 20)
474c08e747b6 Uploaded iuc parents: diff changeset	247 {
474c08e747b6 Uploaded iuc parents: diff changeset	248 scale = 7*ncols/20
474c08e747b6 Uploaded iuc parents: diff changeset	249 pdf(pdfname,width=scale,height=scale)
474c08e747b6 Uploaded iuc parents: diff changeset	250 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	251 pdf(pdfname)
474c08e747b6 Uploaded iuc parents: diff changeset	252 }
474c08e747b6 Uploaded iuc parents: diff changeset	253 par(mfrow=c(ncroot,ncroot))
474c08e747b6 Uploaded iuc parents: diff changeset	254 for (i in c(1:nc)) {
474c08e747b6 Uploaded iuc parents: diff changeset	255 hist(rawrs[,i], main=paste("Contig logcount",i), xlab='log raw count', col="maroon",
474c08e747b6 Uploaded iuc parents: diff changeset	256 breaks=100,sub=fullnames[i],cex=0.8,ylim=c(0,ymax))
474c08e747b6 Uploaded iuc parents: diff changeset	257 }
474c08e747b6 Uploaded iuc parents: diff changeset	258 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	259 par(defpar)
474c08e747b6 Uploaded iuc parents: diff changeset	260
474c08e747b6 Uploaded iuc parents: diff changeset	261 }
474c08e747b6 Uploaded iuc parents: diff changeset	262
474c08e747b6 Uploaded iuc parents: diff changeset	263 cumPlot = function(rawrs,cleanrs,maint,myTitle)
474c08e747b6 Uploaded iuc parents: diff changeset	264 { # updated to use ecdf
474c08e747b6 Uploaded iuc parents: diff changeset	265 pdfname = "Differential_rowsum_bar_charts.pdf"
474c08e747b6 Uploaded iuc parents: diff changeset	266 defpar = par(no.readonly=T)
474c08e747b6 Uploaded iuc parents: diff changeset	267 lrs = log(rawrs,10)
474c08e747b6 Uploaded iuc parents: diff changeset	268 lim = max(lrs)
474c08e747b6 Uploaded iuc parents: diff changeset	269 pdf(pdfname)
474c08e747b6 Uploaded iuc parents: diff changeset	270 par(mfrow=c(2,1))
474c08e747b6 Uploaded iuc parents: diff changeset	271 hist(lrs,breaks=100,main=paste('Before:',maint),xlab="# Reads (log)",
474c08e747b6 Uploaded iuc parents: diff changeset	272 ylab="Count",col="maroon",sub=myTitle, xlim=c(0,lim),las=1)
474c08e747b6 Uploaded iuc parents: diff changeset	273 grid(col="lightgray", lty="dotted")
474c08e747b6 Uploaded iuc parents: diff changeset	274 lrs = log(cleanrs,10)
474c08e747b6 Uploaded iuc parents: diff changeset	275 hist(lrs,breaks=100,main=paste('After:',maint),xlab="# Reads (log)",
474c08e747b6 Uploaded iuc parents: diff changeset	276 ylab="Count",col="maroon",sub=myTitle,xlim=c(0,lim),las=1)
474c08e747b6 Uploaded iuc parents: diff changeset	277 grid(col="lightgray", lty="dotted")
474c08e747b6 Uploaded iuc parents: diff changeset	278 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	279 par(defpar)
474c08e747b6 Uploaded iuc parents: diff changeset	280 }
474c08e747b6 Uploaded iuc parents: diff changeset	281
474c08e747b6 Uploaded iuc parents: diff changeset	282 cumPlot1 = function(rawrs,cleanrs,maint,myTitle)
474c08e747b6 Uploaded iuc parents: diff changeset	283 { # updated to use ecdf
474c08e747b6 Uploaded iuc parents: diff changeset	284 pdfname = paste(gsub(" ","", myTitle , fixed=TRUE),"RowsumCum.pdf",sep='_')
474c08e747b6 Uploaded iuc parents: diff changeset	285 pdf(pdfname)
474c08e747b6 Uploaded iuc parents: diff changeset	286 par(mfrow=c(2,1))
474c08e747b6 Uploaded iuc parents: diff changeset	287 lastx = max(rawrs)
474c08e747b6 Uploaded iuc parents: diff changeset	288 rawe = knots(ecdf(rawrs))
474c08e747b6 Uploaded iuc parents: diff changeset	289 cleane = knots(ecdf(cleanrs))
474c08e747b6 Uploaded iuc parents: diff changeset	290 cy = 1:length(cleane)/length(cleane)
474c08e747b6 Uploaded iuc parents: diff changeset	291 ry = 1:length(rawe)/length(rawe)
474c08e747b6 Uploaded iuc parents: diff changeset	292 plot(rawe,ry,type='l',main=paste('Before',maint),xlab="Log Contig Total Reads",
474c08e747b6 Uploaded iuc parents: diff changeset	293 ylab="Cumulative proportion",col="maroon",log='x',xlim=c(1,lastx),sub=myTitle)
474c08e747b6 Uploaded iuc parents: diff changeset	294 grid(col="blue")
474c08e747b6 Uploaded iuc parents: diff changeset	295 plot(cleane,cy,type='l',main=paste('After',maint),xlab="Log Contig Total Reads",
474c08e747b6 Uploaded iuc parents: diff changeset	296 ylab="Cumulative proportion",col="maroon",log='x',xlim=c(1,lastx),sub=myTitle)
474c08e747b6 Uploaded iuc parents: diff changeset	297 grid(col="blue")
474c08e747b6 Uploaded iuc parents: diff changeset	298 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	299 }
474c08e747b6 Uploaded iuc parents: diff changeset	300
474c08e747b6 Uploaded iuc parents: diff changeset	301
474c08e747b6 Uploaded iuc parents: diff changeset	302
474c08e747b6 Uploaded iuc parents: diff changeset	303 doGSEAold = function(y=NULL,design=NULL,histgmt="",
474c08e747b6 Uploaded iuc parents: diff changeset	304 bigmt="/data/genomes/gsea/3.1/Abetterchoice_nocgp_c2_c3_c5_symbols_all.gmt",
474c08e747b6 Uploaded iuc parents: diff changeset	305 ntest=0, myTitle="myTitle", outfname="GSEA.xls", minnin=5, maxnin=2000,fdrthresh=0.05,fdrtype="BH")
474c08e747b6 Uploaded iuc parents: diff changeset	306 {
474c08e747b6 Uploaded iuc parents: diff changeset	307 sink('Camera.log')
474c08e747b6 Uploaded iuc parents: diff changeset	308 genesets = c()
474c08e747b6 Uploaded iuc parents: diff changeset	309 if (bigmt > "")
474c08e747b6 Uploaded iuc parents: diff changeset	310 {
474c08e747b6 Uploaded iuc parents: diff changeset	311 bigenesets = readLines(bigmt)
474c08e747b6 Uploaded iuc parents: diff changeset	312 genesets = bigenesets
474c08e747b6 Uploaded iuc parents: diff changeset	313 }
474c08e747b6 Uploaded iuc parents: diff changeset	314 if (histgmt > "")
474c08e747b6 Uploaded iuc parents: diff changeset	315 {
474c08e747b6 Uploaded iuc parents: diff changeset	316 hgenesets = readLines(histgmt)
474c08e747b6 Uploaded iuc parents: diff changeset	317 if (bigmt > "") {
474c08e747b6 Uploaded iuc parents: diff changeset	318 genesets = rbind(genesets,hgenesets)
474c08e747b6 Uploaded iuc parents: diff changeset	319 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	320 genesets = hgenesets
474c08e747b6 Uploaded iuc parents: diff changeset	321 } # use only history if no bi
474c08e747b6 Uploaded iuc parents: diff changeset	322 }
474c08e747b6 Uploaded iuc parents: diff changeset	323 print.noquote(paste("@@@read",length(genesets), 'genesets from',histgmt,bigmt))
474c08e747b6 Uploaded iuc parents: diff changeset	324 genesets = strsplit(genesets,'\t') # tabular. genesetid\tURLorwhatever\tgene_1\t..\tgene_n
474c08e747b6 Uploaded iuc parents: diff changeset	325 outf = outfname
474c08e747b6 Uploaded iuc parents: diff changeset	326 head=paste(myTitle,'edgeR GSEA')
474c08e747b6 Uploaded iuc parents: diff changeset	327 write(head,file=outfname,append=F)
474c08e747b6 Uploaded iuc parents: diff changeset	328 ntest=length(genesets)
474c08e747b6 Uploaded iuc parents: diff changeset	329 urownames = toupper(rownames(y))
474c08e747b6 Uploaded iuc parents: diff changeset	330 upcam = c()
474c08e747b6 Uploaded iuc parents: diff changeset	331 downcam = c()
474c08e747b6 Uploaded iuc parents: diff changeset	332 for (i in 1:ntest) {
474c08e747b6 Uploaded iuc parents: diff changeset	333 gs = unlist(genesets[i])
474c08e747b6 Uploaded iuc parents: diff changeset	334 g = gs[1] # geneset_id
474c08e747b6 Uploaded iuc parents: diff changeset	335 u = gs[2]
474c08e747b6 Uploaded iuc parents: diff changeset	336 if (u > "") { u = paste("<a href=\'",u,"\'>",u,"</a>",sep="") }
474c08e747b6 Uploaded iuc parents: diff changeset	337 glist = gs[3:length(gs)] # member gene symbols
474c08e747b6 Uploaded iuc parents: diff changeset	338 glist = toupper(glist)
474c08e747b6 Uploaded iuc parents: diff changeset	339 inglist = urownames %in% glist
474c08e747b6 Uploaded iuc parents: diff changeset	340 nin = sum(inglist)
474c08e747b6 Uploaded iuc parents: diff changeset	341 if ((nin > minnin) && (nin < maxnin)) {
474c08e747b6 Uploaded iuc parents: diff changeset	342 ### print(paste('@@found',sum(inglist),'genes in glist'))
474c08e747b6 Uploaded iuc parents: diff changeset	343 camres = camera(y=y,index=inglist,design=design)
474c08e747b6 Uploaded iuc parents: diff changeset	344 if (! is.null(camres)) {
474c08e747b6 Uploaded iuc parents: diff changeset	345 rownames(camres) = g # gene set name
474c08e747b6 Uploaded iuc parents: diff changeset	346 camres = cbind(GeneSet=g,URL=u,camres)
474c08e747b6 Uploaded iuc parents: diff changeset	347 if (camres\$Direction == "Up")
474c08e747b6 Uploaded iuc parents: diff changeset	348 {
474c08e747b6 Uploaded iuc parents: diff changeset	349 upcam = rbind(upcam,camres) } else {
474c08e747b6 Uploaded iuc parents: diff changeset	350 downcam = rbind(downcam,camres)
474c08e747b6 Uploaded iuc parents: diff changeset	351 }
474c08e747b6 Uploaded iuc parents: diff changeset	352 }
474c08e747b6 Uploaded iuc parents: diff changeset	353 }
474c08e747b6 Uploaded iuc parents: diff changeset	354 }
474c08e747b6 Uploaded iuc parents: diff changeset	355 uscam = upcam[order(upcam\$PValue),]
474c08e747b6 Uploaded iuc parents: diff changeset	356 unadjp = uscam\$PValue
474c08e747b6 Uploaded iuc parents: diff changeset	357 uscam\$adjPValue = p.adjust(unadjp,method=fdrtype)
474c08e747b6 Uploaded iuc parents: diff changeset	358 nup = max(10,sum((uscam\$adjPValue < fdrthresh)))
474c08e747b6 Uploaded iuc parents: diff changeset	359 dscam = downcam[order(downcam\$PValue),]
474c08e747b6 Uploaded iuc parents: diff changeset	360 unadjp = dscam\$PValue
474c08e747b6 Uploaded iuc parents: diff changeset	361 dscam\$adjPValue = p.adjust(unadjp,method=fdrtype)
474c08e747b6 Uploaded iuc parents: diff changeset	362 ndown = max(10,sum((dscam\$adjPValue < fdrthresh)))
474c08e747b6 Uploaded iuc parents: diff changeset	363 write.table(uscam,file=paste('camera_up',outfname,sep='_'),quote=F,sep='\t',row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	364 write.table(dscam,file=paste('camera_down',outfname,sep='_'),quote=F,sep='\t',row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	365 print.noquote(paste('@@@@@ Camera up top',nup,'gene sets:'))
474c08e747b6 Uploaded iuc parents: diff changeset	366 write.table(head(uscam,nup),file="",quote=F,sep='\t',row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	367 print.noquote(paste('@@@@@ Camera down top',ndown,'gene sets:'))
474c08e747b6 Uploaded iuc parents: diff changeset	368 write.table(head(dscam,ndown),file="",quote=F,sep='\t',row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	369 sink()
474c08e747b6 Uploaded iuc parents: diff changeset	370 }
474c08e747b6 Uploaded iuc parents: diff changeset	371
474c08e747b6 Uploaded iuc parents: diff changeset	372
474c08e747b6 Uploaded iuc parents: diff changeset	373
474c08e747b6 Uploaded iuc parents: diff changeset	374
474c08e747b6 Uploaded iuc parents: diff changeset	375 doGSEA = function(y=NULL,design=NULL,histgmt="",
474c08e747b6 Uploaded iuc parents: diff changeset	376 bigmt="/data/genomes/gsea/3.1/Abetterchoice_nocgp_c2_c3_c5_symbols_all.gmt",
474c08e747b6 Uploaded iuc parents: diff changeset	377 ntest=0, myTitle="myTitle", outfname="GSEA.xls", minnin=5, maxnin=2000,fdrthresh=0.05,fdrtype="BH")
474c08e747b6 Uploaded iuc parents: diff changeset	378 {
474c08e747b6 Uploaded iuc parents: diff changeset	379 sink('Camera.log')
474c08e747b6 Uploaded iuc parents: diff changeset	380 genesets = c()
474c08e747b6 Uploaded iuc parents: diff changeset	381 if (bigmt > "")
474c08e747b6 Uploaded iuc parents: diff changeset	382 {
474c08e747b6 Uploaded iuc parents: diff changeset	383 bigenesets = readLines(bigmt)
474c08e747b6 Uploaded iuc parents: diff changeset	384 genesets = bigenesets
474c08e747b6 Uploaded iuc parents: diff changeset	385 }
474c08e747b6 Uploaded iuc parents: diff changeset	386 if (histgmt > "")
474c08e747b6 Uploaded iuc parents: diff changeset	387 {
474c08e747b6 Uploaded iuc parents: diff changeset	388 hgenesets = readLines(histgmt)
474c08e747b6 Uploaded iuc parents: diff changeset	389 if (bigmt > "") {
474c08e747b6 Uploaded iuc parents: diff changeset	390 genesets = rbind(genesets,hgenesets)
474c08e747b6 Uploaded iuc parents: diff changeset	391 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	392 genesets = hgenesets
474c08e747b6 Uploaded iuc parents: diff changeset	393 } # use only history if no bi
474c08e747b6 Uploaded iuc parents: diff changeset	394 }
474c08e747b6 Uploaded iuc parents: diff changeset	395 print.noquote(paste("@@@read",length(genesets), 'genesets from',histgmt,bigmt))
474c08e747b6 Uploaded iuc parents: diff changeset	396 genesets = strsplit(genesets,'\t') # tabular. genesetid\tURLorwhatever\tgene_1\t..\tgene_n
474c08e747b6 Uploaded iuc parents: diff changeset	397 outf = outfname
474c08e747b6 Uploaded iuc parents: diff changeset	398 head=paste(myTitle,'edgeR GSEA')
474c08e747b6 Uploaded iuc parents: diff changeset	399 write(head,file=outfname,append=F)
474c08e747b6 Uploaded iuc parents: diff changeset	400 ntest=length(genesets)
474c08e747b6 Uploaded iuc parents: diff changeset	401 urownames = toupper(rownames(y))
474c08e747b6 Uploaded iuc parents: diff changeset	402 upcam = c()
474c08e747b6 Uploaded iuc parents: diff changeset	403 downcam = c()
474c08e747b6 Uploaded iuc parents: diff changeset	404 incam = c()
474c08e747b6 Uploaded iuc parents: diff changeset	405 urls = c()
474c08e747b6 Uploaded iuc parents: diff changeset	406 gsids = c()
474c08e747b6 Uploaded iuc parents: diff changeset	407 for (i in 1:ntest) {
474c08e747b6 Uploaded iuc parents: diff changeset	408 gs = unlist(genesets[i])
474c08e747b6 Uploaded iuc parents: diff changeset	409 gsid = gs[1] # geneset_id
474c08e747b6 Uploaded iuc parents: diff changeset	410 url = gs[2]
474c08e747b6 Uploaded iuc parents: diff changeset	411 if (url > "") { url = paste("<a href=\'",url,"\'>",url,"</a>",sep="") }
474c08e747b6 Uploaded iuc parents: diff changeset	412 glist = gs[3:length(gs)] # member gene symbols
474c08e747b6 Uploaded iuc parents: diff changeset	413 glist = toupper(glist)
474c08e747b6 Uploaded iuc parents: diff changeset	414 inglist = urownames %in% glist
474c08e747b6 Uploaded iuc parents: diff changeset	415 nin = sum(inglist)
474c08e747b6 Uploaded iuc parents: diff changeset	416 if ((nin > minnin) && (nin < maxnin)) {
474c08e747b6 Uploaded iuc parents: diff changeset	417 incam = c(incam,inglist)
474c08e747b6 Uploaded iuc parents: diff changeset	418 gsids = c(gsids,gsid)
474c08e747b6 Uploaded iuc parents: diff changeset	419 urls = c(urls,url)
474c08e747b6 Uploaded iuc parents: diff changeset	420 }
474c08e747b6 Uploaded iuc parents: diff changeset	421 }
474c08e747b6 Uploaded iuc parents: diff changeset	422 incam = as.list(incam)
474c08e747b6 Uploaded iuc parents: diff changeset	423 names(incam) = gsids
474c08e747b6 Uploaded iuc parents: diff changeset	424 allcam = camera(y=y,index=incam,design=design)
474c08e747b6 Uploaded iuc parents: diff changeset	425 allcamres = cbind(geneset=gsids,allcam,URL=urls)
474c08e747b6 Uploaded iuc parents: diff changeset	426 for (i in 1:ntest) {
474c08e747b6 Uploaded iuc parents: diff changeset	427 camres = allcamres[i]
474c08e747b6 Uploaded iuc parents: diff changeset	428 res = try(test = (camres\$Direction == "Up"))
474c08e747b6 Uploaded iuc parents: diff changeset	429 if ("try-error" %in% class(res)) {
474c08e747b6 Uploaded iuc parents: diff changeset	430 cat("test failed, camres = :")
474c08e747b6 Uploaded iuc parents: diff changeset	431 print.noquote(camres)
474c08e747b6 Uploaded iuc parents: diff changeset	432 } else { if (camres\$Direction == "Up")
474c08e747b6 Uploaded iuc parents: diff changeset	433 { upcam = rbind(upcam,camres)
474c08e747b6 Uploaded iuc parents: diff changeset	434 } else { downcam = rbind(downcam,camres)
474c08e747b6 Uploaded iuc parents: diff changeset	435 }
474c08e747b6 Uploaded iuc parents: diff changeset	436
474c08e747b6 Uploaded iuc parents: diff changeset	437 }
474c08e747b6 Uploaded iuc parents: diff changeset	438 }
474c08e747b6 Uploaded iuc parents: diff changeset	439 uscam = upcam[order(upcam\$PValue),]
474c08e747b6 Uploaded iuc parents: diff changeset	440 unadjp = uscam\$PValue
474c08e747b6 Uploaded iuc parents: diff changeset	441 uscam\$adjPValue = p.adjust(unadjp,method=fdrtype)
474c08e747b6 Uploaded iuc parents: diff changeset	442 nup = max(10,sum((uscam\$adjPValue < fdrthresh)))
474c08e747b6 Uploaded iuc parents: diff changeset	443 dscam = downcam[order(downcam\$PValue),]
474c08e747b6 Uploaded iuc parents: diff changeset	444 unadjp = dscam\$PValue
474c08e747b6 Uploaded iuc parents: diff changeset	445 dscam\$adjPValue = p.adjust(unadjp,method=fdrtype)
474c08e747b6 Uploaded iuc parents: diff changeset	446 ndown = max(10,sum((dscam\$adjPValue < fdrthresh)))
474c08e747b6 Uploaded iuc parents: diff changeset	447 write.table(uscam,file=paste('camera_up',outfname,sep='_'),quote=F,sep='\t',row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	448 write.table(dscam,file=paste('camera_down',outfname,sep='_'),quote=F,sep='\t',row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	449 print.noquote(paste('@@@@@ Camera up top',nup,'gene sets:'))
474c08e747b6 Uploaded iuc parents: diff changeset	450 write.table(head(uscam,nup),file="",quote=F,sep='\t',row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	451 print.noquote(paste('@@@@@ Camera down top',ndown,'gene sets:'))
474c08e747b6 Uploaded iuc parents: diff changeset	452 write.table(head(dscam,ndown),file="",quote=F,sep='\t',row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	453 sink()
474c08e747b6 Uploaded iuc parents: diff changeset	454 }
474c08e747b6 Uploaded iuc parents: diff changeset	455
474c08e747b6 Uploaded iuc parents: diff changeset	456
474c08e747b6 Uploaded iuc parents: diff changeset	457 edgeIt = function (Count_Matrix=c(),group=c(),out_edgeR=F,out_Voom=F,out_DESeq2=F,fdrtype='fdr',priordf=5,
474c08e747b6 Uploaded iuc parents: diff changeset	458 fdrthresh=0.05,outputdir='.', myTitle='Differential Counts',libSize=c(),useNDF=F,
474c08e747b6 Uploaded iuc parents: diff changeset	459 filterquantile=0.2, subjects=c(),TreatmentName="Rx",ControlName="Ctrl",mydesign=NULL,
474c08e747b6 Uploaded iuc parents: diff changeset	460 doDESeq2=T,doVoom=T,doCamera=T,doedgeR=T,org='hg19',
474c08e747b6 Uploaded iuc parents: diff changeset	461 histgmt="", bigmt="/data/genomes/gsea/3.1/Abetterchoice_nocgp_c2_c3_c5_symbols_all.gmt",
474c08e747b6 Uploaded iuc parents: diff changeset	462 doCook=F,DESeq_fitType="parameteric",robust_meth='ordinary')
474c08e747b6 Uploaded iuc parents: diff changeset	463 {
474c08e747b6 Uploaded iuc parents: diff changeset	464
474c08e747b6 Uploaded iuc parents: diff changeset	465 logf = file('Differential.log', open = "a")
474c08e747b6 Uploaded iuc parents: diff changeset	466 sink(logf,type = c("output", "message"))
474c08e747b6 Uploaded iuc parents: diff changeset	467
474c08e747b6 Uploaded iuc parents: diff changeset	468
474c08e747b6 Uploaded iuc parents: diff changeset	469 run_edgeR = function(workCM,pdata,subjects,group,priordf,robust_meth,mydesign,mt,cmrowsums,out_edgeR,nonzerod)
474c08e747b6 Uploaded iuc parents: diff changeset	470 {
474c08e747b6 Uploaded iuc parents: diff changeset	471 logf = file('edgeR.log', open = "a")
474c08e747b6 Uploaded iuc parents: diff changeset	472 sink(logf,type = c("output", "message"))
474c08e747b6 Uploaded iuc parents: diff changeset	473 #### Setup myDGEList object
474c08e747b6 Uploaded iuc parents: diff changeset	474 myDGEList = DGEList(counts=workCM, group = group)
474c08e747b6 Uploaded iuc parents: diff changeset	475 myDGEList = calcNormFactors(myDGEList)
474c08e747b6 Uploaded iuc parents: diff changeset	476 if (robust_meth == 'ordinary') {
474c08e747b6 Uploaded iuc parents: diff changeset	477 myDGEList = estimateGLMCommonDisp(myDGEList,mydesign)
474c08e747b6 Uploaded iuc parents: diff changeset	478 myDGEList = estimateGLMTrendedDisp(myDGEList,mydesign)
474c08e747b6 Uploaded iuc parents: diff changeset	479 if (priordf > 0) { myDGEList = estimateGLMTagwiseDisp(myDGEList,mydesign,prior.df = priordf)
474c08e747b6 Uploaded iuc parents: diff changeset	480 } else { myDGEList = estimateGLMTagwiseDisp(myDGEList,mydesign) }
474c08e747b6 Uploaded iuc parents: diff changeset	481 comdisp = myDGEList\$common.dispersion
474c08e747b6 Uploaded iuc parents: diff changeset	482 estpriorn = getPriorN(myDGEList)
474c08e747b6 Uploaded iuc parents: diff changeset	483 print(paste("Common Dispersion =",comdisp,"CV = ",sqrt(comdisp),"getPriorN = ",estpriorn),quote=F)
474c08e747b6 Uploaded iuc parents: diff changeset	484 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	485 myDGEList = estimateGLMRobustDisp(myDGEList,design=mydesign, prior.df = priordf, maxit = 6, residual.type = robust_meth)
474c08e747b6 Uploaded iuc parents: diff changeset	486 }
474c08e747b6 Uploaded iuc parents: diff changeset	487
474c08e747b6 Uploaded iuc parents: diff changeset	488
474c08e747b6 Uploaded iuc parents: diff changeset	489 DGLM = glmFit(myDGEList,design=mydesign)
474c08e747b6 Uploaded iuc parents: diff changeset	490 DE = glmLRT(DGLM,coef=ncol(DGLM\$design)) # always last one - subject is first if needed
474c08e747b6 Uploaded iuc parents: diff changeset	491 normData = cpm(myDGEList)
474c08e747b6 Uploaded iuc parents: diff changeset	492 uoutput = cbind(
474c08e747b6 Uploaded iuc parents: diff changeset	493 Name=as.character(rownames(myDGEList\$counts)),
474c08e747b6 Uploaded iuc parents: diff changeset	494 DE\$table,
474c08e747b6 Uploaded iuc parents: diff changeset	495 adj.p.value=p.adjust(DE\$table\$PValue, method=fdrtype),
474c08e747b6 Uploaded iuc parents: diff changeset	496 Dispersion=myDGEList\$tagwise.dispersion,totreads=cmrowsums,normData,
474c08e747b6 Uploaded iuc parents: diff changeset	497 myDGEList\$counts
474c08e747b6 Uploaded iuc parents: diff changeset	498 )
474c08e747b6 Uploaded iuc parents: diff changeset	499 soutput = uoutput[order(DE\$table\$PValue),] # sorted into p value order - for quick toptable
474c08e747b6 Uploaded iuc parents: diff changeset	500 goodness = gof(DGLM, pcutoff=fdrthresh)
474c08e747b6 Uploaded iuc parents: diff changeset	501 if (sum(goodness\$outlier) > 0) {
474c08e747b6 Uploaded iuc parents: diff changeset	502 print.noquote('GLM outliers:')
474c08e747b6 Uploaded iuc parents: diff changeset	503 print(paste(rownames(DGLM)[(goodness\$outlier)],collapse=','),quote=F)
474c08e747b6 Uploaded iuc parents: diff changeset	504 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	505 print('No GLM fit outlier genes found\n')
474c08e747b6 Uploaded iuc parents: diff changeset	506 }
474c08e747b6 Uploaded iuc parents: diff changeset	507 z = limma::zscoreGamma(goodness\$gof.statistic, shape=goodness\$df/2, scale=2)
474c08e747b6 Uploaded iuc parents: diff changeset	508 pdf(paste("edgeR",mt,"GoodnessofFit.pdf",sep='_'))
474c08e747b6 Uploaded iuc parents: diff changeset	509 qq = qqnorm(z, panel.first=grid(), main="tagwise dispersion")
474c08e747b6 Uploaded iuc parents: diff changeset	510 abline(0,1,lwd=3)
474c08e747b6 Uploaded iuc parents: diff changeset	511 points(qq\$x[goodness\$outlier],qq\$y[goodness\$outlier], pch=16, col="maroon")
474c08e747b6 Uploaded iuc parents: diff changeset	512 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	513 uniqueg = unique(group)
474c08e747b6 Uploaded iuc parents: diff changeset	514 write.table(soutput,file=out_edgeR, quote=FALSE, sep="\t",row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	515 tt = cbind(
474c08e747b6 Uploaded iuc parents: diff changeset	516 Name=as.character(rownames(myDGEList)),
474c08e747b6 Uploaded iuc parents: diff changeset	517 DE\$table,
474c08e747b6 Uploaded iuc parents: diff changeset	518 adj.p.value=p.adjust(DE\$table\$PValue, method=fdrtype),
474c08e747b6 Uploaded iuc parents: diff changeset	519 Dispersion=myDGEList\$tagwise.dispersion,totreads=cmrowsums
474c08e747b6 Uploaded iuc parents: diff changeset	520 )
474c08e747b6 Uploaded iuc parents: diff changeset	521 tt = cbind(tt,URL=contigurls) # add to end so table isn't laid out strangely
474c08e747b6 Uploaded iuc parents: diff changeset	522 stt = tt[order(DE\$table\$PValue),]
474c08e747b6 Uploaded iuc parents: diff changeset	523 print.noquote("@@ edgeR Top tags\n")
474c08e747b6 Uploaded iuc parents: diff changeset	524 print.noquote(stt[1:50,])
474c08e747b6 Uploaded iuc parents: diff changeset	525 deTags = rownames(uoutput[uoutput\$adj.p.value < fdrthresh,])
474c08e747b6 Uploaded iuc parents: diff changeset	526 nsig = length(deTags)
474c08e747b6 Uploaded iuc parents: diff changeset	527 print.noquote(paste('@@',nsig,'tags significant at adj p=',fdrthresh))
474c08e747b6 Uploaded iuc parents: diff changeset	528 deColours = ifelse(deTags,'red','black')
474c08e747b6 Uploaded iuc parents: diff changeset	529 pdf(paste("edgeR",mt,"BCV_vs_abundance.pdf",sep="_"))
474c08e747b6 Uploaded iuc parents: diff changeset	530 plotBCV(myDGEList, cex=0.3, main="Biological CV vs abundance")
474c08e747b6 Uploaded iuc parents: diff changeset	531 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	532 dg = myDGEList[order(DE\$table\$PValue),]
474c08e747b6 Uploaded iuc parents: diff changeset	533 outpdfname= paste("edgeR",mt,"top_100_heatmap.pdf",sep="_")
474c08e747b6 Uploaded iuc parents: diff changeset	534 ocpm = normData[order(DE\$table\$PValue),]
474c08e747b6 Uploaded iuc parents: diff changeset	535 ocpm = ocpm[c(1:100),]
474c08e747b6 Uploaded iuc parents: diff changeset	536 hmap2(ocpm,TName=TName,group=group,outpdfname=outpdfname,myTitle=paste(myTitle,'Heatmap'))
474c08e747b6 Uploaded iuc parents: diff changeset	537 outSmear = paste("edgeR",mt,"smearplot.pdf",sep="_")
474c08e747b6 Uploaded iuc parents: diff changeset	538 outMain = paste("Smear Plot for ",TName,' Vs ',CName,' (FDR@',fdrthresh,' N = ',nsig,')',sep='')
474c08e747b6 Uploaded iuc parents: diff changeset	539 smearPlot(myDGEList=myDGEList,deTags=deTags, outSmear=outSmear, outMain = outMain)
474c08e747b6 Uploaded iuc parents: diff changeset	540 qqPlot(descr=paste(myTitle,'edgeR adj p QQ plot'),pvector=tt\$adj.p.value,outpdf=paste('edgeR',mt,'qqplot.pdf',sep='_'))
474c08e747b6 Uploaded iuc parents: diff changeset	541 topresults.edgeR = soutput[which(soutput\$adj.p.value < fdrthresh), ]
474c08e747b6 Uploaded iuc parents: diff changeset	542 edgeRcountsindex = which(allgenes %in% rownames(topresults.edgeR))
474c08e747b6 Uploaded iuc parents: diff changeset	543 edgeRcounts = rep(0, length(allgenes))
474c08e747b6 Uploaded iuc parents: diff changeset	544 edgeRcounts[edgeRcountsindex] = 1 # Create venn diagram of hits
474c08e747b6 Uploaded iuc parents: diff changeset	545 sink()
474c08e747b6 Uploaded iuc parents: diff changeset	546 return(list(myDGEList=myDGEList,edgeRcounts=edgeRcounts))
474c08e747b6 Uploaded iuc parents: diff changeset	547 } ### run_edgeR
474c08e747b6 Uploaded iuc parents: diff changeset	548
474c08e747b6 Uploaded iuc parents: diff changeset	549
474c08e747b6 Uploaded iuc parents: diff changeset	550 run_DESeq2 = function(workCM,pdata,subjects,group,out_DESeq2,mt,DESeq_fitType)
474c08e747b6 Uploaded iuc parents: diff changeset	551
474c08e747b6 Uploaded iuc parents: diff changeset	552 {
474c08e747b6 Uploaded iuc parents: diff changeset	553 logf = file("DESeq2.log", open = "a")
474c08e747b6 Uploaded iuc parents: diff changeset	554 sink(logf,type = c("output", "message"))
474c08e747b6 Uploaded iuc parents: diff changeset	555 # DESeq2
474c08e747b6 Uploaded iuc parents: diff changeset	556 require('DESeq2')
474c08e747b6 Uploaded iuc parents: diff changeset	557 library('RColorBrewer')
474c08e747b6 Uploaded iuc parents: diff changeset	558 if (length(subjects) == 0)
474c08e747b6 Uploaded iuc parents: diff changeset	559 {
474c08e747b6 Uploaded iuc parents: diff changeset	560 pdata = data.frame(Name=colnames(workCM),Rx=group,row.names=colnames(workCM))
474c08e747b6 Uploaded iuc parents: diff changeset	561 deSEQds = DESeqDataSetFromMatrix(countData = workCM, colData = pdata, design = formula(~ Rx))
474c08e747b6 Uploaded iuc parents: diff changeset	562 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	563 pdata = data.frame(Name=colnames(workCM),Rx=group,subjects=subjects,row.names=colnames(workCM))
474c08e747b6 Uploaded iuc parents: diff changeset	564 deSEQds = DESeqDataSetFromMatrix(countData = workCM, colData = pdata, design = formula(~ subjects + Rx))
474c08e747b6 Uploaded iuc parents: diff changeset	565 }
474c08e747b6 Uploaded iuc parents: diff changeset	566 deSeqDatsizefac = estimateSizeFactors(deSEQds)
474c08e747b6 Uploaded iuc parents: diff changeset	567 deSeqDatdisp = estimateDispersions(deSeqDatsizefac,fitType=DESeq_fitType)
474c08e747b6 Uploaded iuc parents: diff changeset	568 resDESeq = nbinomWaldTest(deSeqDatdisp)
474c08e747b6 Uploaded iuc parents: diff changeset	569 rDESeq = as.data.frame(results(resDESeq))
474c08e747b6 Uploaded iuc parents: diff changeset	570 rDESeq = cbind(Contig=rownames(workCM),rDESeq,NReads=cmrowsums,URL=contigurls)
474c08e747b6 Uploaded iuc parents: diff changeset	571 srDESeq = rDESeq[order(rDESeq\$pvalue),]
474c08e747b6 Uploaded iuc parents: diff changeset	572 qqPlot(descr=paste(myTitle,'DESeq2 adj p qq plot'),pvector=rDESeq\$padj,outpdf=paste('DESeq2',mt,'qqplot.pdf',sep="_"))
474c08e747b6 Uploaded iuc parents: diff changeset	573 cat("# DESeq top 50\n")
474c08e747b6 Uploaded iuc parents: diff changeset	574 print.noquote(srDESeq[1:50,])
474c08e747b6 Uploaded iuc parents: diff changeset	575 write.table(srDESeq,file=out_DESeq2, quote=FALSE, sep="\t",row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	576 topresults.DESeq = rDESeq[which(rDESeq\$padj < fdrthresh), ]
474c08e747b6 Uploaded iuc parents: diff changeset	577 DESeqcountsindex = which(allgenes %in% rownames(topresults.DESeq))
474c08e747b6 Uploaded iuc parents: diff changeset	578 DESeqcounts = rep(0, length(allgenes))
474c08e747b6 Uploaded iuc parents: diff changeset	579 DESeqcounts[DESeqcountsindex] = 1
474c08e747b6 Uploaded iuc parents: diff changeset	580 pdf(paste("DESeq2",mt,"dispersion_estimates.pdf",sep='_'))
474c08e747b6 Uploaded iuc parents: diff changeset	581 plotDispEsts(resDESeq)
474c08e747b6 Uploaded iuc parents: diff changeset	582 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	583 ysmall = abs(min(rDESeq\$log2FoldChange))
474c08e747b6 Uploaded iuc parents: diff changeset	584 ybig = abs(max(rDESeq\$log2FoldChange))
474c08e747b6 Uploaded iuc parents: diff changeset	585 ylimit = min(4,ysmall,ybig)
474c08e747b6 Uploaded iuc parents: diff changeset	586 pdf(paste("DESeq2",mt,"MA_plot.pdf",sep="_"))
474c08e747b6 Uploaded iuc parents: diff changeset	587 plotMA(resDESeq,main=paste(myTitle,"DESeq2 MA plot"),ylim=c(-ylimit,ylimit))
474c08e747b6 Uploaded iuc parents: diff changeset	588 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	589 rlogres = rlogTransformation(resDESeq)
474c08e747b6 Uploaded iuc parents: diff changeset	590 sampledists = dist( t( assay(rlogres) ) )
474c08e747b6 Uploaded iuc parents: diff changeset	591 sdmat = as.matrix(sampledists)
474c08e747b6 Uploaded iuc parents: diff changeset	592 pdf(paste("DESeq2",mt,"sample_distance_plot.pdf",sep="_"))
474c08e747b6 Uploaded iuc parents: diff changeset	593 heatmap.2(sdmat,trace="none",main=paste(myTitle,"DESeq2 sample distances"),
474c08e747b6 Uploaded iuc parents: diff changeset	594 col = colorRampPalette( rev(brewer.pal(9, "RdBu")) )(255))
474c08e747b6 Uploaded iuc parents: diff changeset	595 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	596 result = try( (ppca = plotPCA( varianceStabilizingTransformation(deSeqDatdisp,blind=T), intgroup=c("Rx","Name")) ) )
474c08e747b6 Uploaded iuc parents: diff changeset	597 if ("try-error" %in% class(result)) {
474c08e747b6 Uploaded iuc parents: diff changeset	598 print.noquote('DESeq2 plotPCA failed.')
474c08e747b6 Uploaded iuc parents: diff changeset	599 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	600 pdf(paste("DESeq2",mt,"PCA_plot.pdf",sep="_"))
474c08e747b6 Uploaded iuc parents: diff changeset	601 #### wtf - print? Seems needed to get this to work
474c08e747b6 Uploaded iuc parents: diff changeset	602 print(ppca)
474c08e747b6 Uploaded iuc parents: diff changeset	603 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	604 }
474c08e747b6 Uploaded iuc parents: diff changeset	605 sink()
474c08e747b6 Uploaded iuc parents: diff changeset	606 return(DESeqcounts)
474c08e747b6 Uploaded iuc parents: diff changeset	607 }
474c08e747b6 Uploaded iuc parents: diff changeset	608
474c08e747b6 Uploaded iuc parents: diff changeset	609
474c08e747b6 Uploaded iuc parents: diff changeset	610 run_Voom = function(workCM,pdata,subjects,group,mydesign,mt,out_Voom)
474c08e747b6 Uploaded iuc parents: diff changeset	611 {
474c08e747b6 Uploaded iuc parents: diff changeset	612 logf = file('VOOM.log', open = "a")
474c08e747b6 Uploaded iuc parents: diff changeset	613 sink(logf,type = c("output", "message"))
474c08e747b6 Uploaded iuc parents: diff changeset	614 if (doedgeR == F) {
474c08e747b6 Uploaded iuc parents: diff changeset	615 #### Setup myDGEList object
474c08e747b6 Uploaded iuc parents: diff changeset	616 myDGEList = DGEList(counts=workCM, group = group)
474c08e747b6 Uploaded iuc parents: diff changeset	617 myDGEList = calcNormFactors(myDGEList)
474c08e747b6 Uploaded iuc parents: diff changeset	618 myDGEList = estimateGLMCommonDisp(myDGEList,mydesign)
474c08e747b6 Uploaded iuc parents: diff changeset	619 myDGEList = estimateGLMTrendedDisp(myDGEList,mydesign)
474c08e747b6 Uploaded iuc parents: diff changeset	620 myDGEList = estimateGLMTagwiseDisp(myDGEList,mydesign)
474c08e747b6 Uploaded iuc parents: diff changeset	621 }
474c08e747b6 Uploaded iuc parents: diff changeset	622 pdf(paste("VOOM",mt,"mean_variance_plot.pdf",sep='_'))
474c08e747b6 Uploaded iuc parents: diff changeset	623 dat.voomed <- voom(myDGEList, mydesign, plot = TRUE, normalize.method="quantil", lib.size = NULL)
474c08e747b6 Uploaded iuc parents: diff changeset	624 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	625 # Use limma to fit data
474c08e747b6 Uploaded iuc parents: diff changeset	626 fit = lmFit(dat.voomed, mydesign)
474c08e747b6 Uploaded iuc parents: diff changeset	627 fit = eBayes(fit)
474c08e747b6 Uploaded iuc parents: diff changeset	628 rvoom = topTable(fit, coef = length(colnames(mydesign)), adj = fdrtype, n = Inf, sort="none")
474c08e747b6 Uploaded iuc parents: diff changeset	629 qqPlot(descr=paste(myTitle,'VOOM-limma adj p QQ plot'),pvector=rvoom\$adj.P.Val,outpdf=paste('VOOM',mt,'qqplot.pdf',sep='_'))
474c08e747b6 Uploaded iuc parents: diff changeset	630 rownames(rvoom) = rownames(workCM)
474c08e747b6 Uploaded iuc parents: diff changeset	631 rvoom = cbind(Contig=rownames(workCM),rvoom,NReads=cmrowsums,URL=contigurls)
474c08e747b6 Uploaded iuc parents: diff changeset	632 srvoom = rvoom[order(rvoom\$P.Value),]
474c08e747b6 Uploaded iuc parents: diff changeset	633 cat("# VOOM top 50\n")
474c08e747b6 Uploaded iuc parents: diff changeset	634 print(srvoom[1:50,])
474c08e747b6 Uploaded iuc parents: diff changeset	635 write.table(srvoom,file=out_Voom, quote=FALSE, sep="\t",row.names=F)
474c08e747b6 Uploaded iuc parents: diff changeset	636 # Use an FDR cutoff to find interesting samples for edgeR, DESeq and voom/limma
474c08e747b6 Uploaded iuc parents: diff changeset	637 topresults.voom = rvoom[which(rvoom\$adj.P.Val < fdrthresh), ]
474c08e747b6 Uploaded iuc parents: diff changeset	638 voomcountsindex <- which(allgenes %in% rownames(topresults.voom))
474c08e747b6 Uploaded iuc parents: diff changeset	639 voomcounts = rep(0, length(allgenes))
474c08e747b6 Uploaded iuc parents: diff changeset	640 voomcounts[voomcountsindex] = 1
474c08e747b6 Uploaded iuc parents: diff changeset	641 sink()
474c08e747b6 Uploaded iuc parents: diff changeset	642 return(voomcounts)
474c08e747b6 Uploaded iuc parents: diff changeset	643 }
474c08e747b6 Uploaded iuc parents: diff changeset	644
474c08e747b6 Uploaded iuc parents: diff changeset	645
474c08e747b6 Uploaded iuc parents: diff changeset	646 #### data cleaning and analsis control starts here
474c08e747b6 Uploaded iuc parents: diff changeset	647
474c08e747b6 Uploaded iuc parents: diff changeset	648
474c08e747b6 Uploaded iuc parents: diff changeset	649 # Error handling
474c08e747b6 Uploaded iuc parents: diff changeset	650 nugroup = length(unique(group))
474c08e747b6 Uploaded iuc parents: diff changeset	651 if (nugroup!=2){
474c08e747b6 Uploaded iuc parents: diff changeset	652 print("Number of conditions identified in experiment does not equal 2")
474c08e747b6 Uploaded iuc parents: diff changeset	653 q()
474c08e747b6 Uploaded iuc parents: diff changeset	654 }
474c08e747b6 Uploaded iuc parents: diff changeset	655 require(edgeR)
474c08e747b6 Uploaded iuc parents: diff changeset	656 options(width = 512)
474c08e747b6 Uploaded iuc parents: diff changeset	657 mt = paste(unlist(strsplit(myTitle,'_')),collapse=" ")
474c08e747b6 Uploaded iuc parents: diff changeset	658 allN = nrow(Count_Matrix)
474c08e747b6 Uploaded iuc parents: diff changeset	659 nscut = round(ncol(Count_Matrix)/2) # half samples
474c08e747b6 Uploaded iuc parents: diff changeset	660 colTotmillionreads = colSums(Count_Matrix)/1e6
474c08e747b6 Uploaded iuc parents: diff changeset	661 counts.dataframe = as.data.frame(c())
474c08e747b6 Uploaded iuc parents: diff changeset	662 rawrs = rowSums(Count_Matrix)
474c08e747b6 Uploaded iuc parents: diff changeset	663 nonzerod = Count_Matrix[(rawrs > 0),] # remove all zero count genes
474c08e747b6 Uploaded iuc parents: diff changeset	664 nzN = nrow(nonzerod)
474c08e747b6 Uploaded iuc parents: diff changeset	665 nzrs = rowSums(nonzerod)
474c08e747b6 Uploaded iuc parents: diff changeset	666 zN = allN - nzN
474c08e747b6 Uploaded iuc parents: diff changeset	667 print('@@@ Quantiles for non-zero row counts:',quote=F)
474c08e747b6 Uploaded iuc parents: diff changeset	668 print(quantile(nzrs,probs=seq(0,1,0.1)),quote=F)
474c08e747b6 Uploaded iuc parents: diff changeset	669 if (useNDF == T)
474c08e747b6 Uploaded iuc parents: diff changeset	670 {
474c08e747b6 Uploaded iuc parents: diff changeset	671 gt1rpin3 = rowSums(Count_Matrix/expandAsMatrix(colTotmillionreads,dim(Count_Matrix)) >= 1) >= nscut
474c08e747b6 Uploaded iuc parents: diff changeset	672 lo = colSums(Count_Matrix[!gt1rpin3,])
474c08e747b6 Uploaded iuc parents: diff changeset	673 workCM = Count_Matrix[gt1rpin3,]
474c08e747b6 Uploaded iuc parents: diff changeset	674 cleanrs = rowSums(workCM)
474c08e747b6 Uploaded iuc parents: diff changeset	675 cleanN = length(cleanrs)
474c08e747b6 Uploaded iuc parents: diff changeset	676 meth = paste( "After removing",length(lo),"contigs with fewer than ",nscut," sample read counts >= 1 per million, there are",sep="")
474c08e747b6 Uploaded iuc parents: diff changeset	677 print(paste("Read",allN,"contigs. Removed",zN,"contigs with no reads.",meth,cleanN,"contigs"),quote=F)
474c08e747b6 Uploaded iuc parents: diff changeset	678 maint = paste('Filter >=1/million reads in >=',nscut,'samples')
474c08e747b6 Uploaded iuc parents: diff changeset	679 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	680 useme = (nzrs > quantile(nzrs,filterquantile))
474c08e747b6 Uploaded iuc parents: diff changeset	681 workCM = nonzerod[useme,]
474c08e747b6 Uploaded iuc parents: diff changeset	682 lo = colSums(nonzerod[!useme,])
474c08e747b6 Uploaded iuc parents: diff changeset	683 cleanrs = rowSums(workCM)
474c08e747b6 Uploaded iuc parents: diff changeset	684 cleanN = length(cleanrs)
474c08e747b6 Uploaded iuc parents: diff changeset	685 meth = paste("After filtering at count quantile =",filterquantile,", there are",sep="")
474c08e747b6 Uploaded iuc parents: diff changeset	686 print(paste('Read',allN,"contigs. Removed",zN,"with no reads.",meth,cleanN,"contigs"),quote=F)
474c08e747b6 Uploaded iuc parents: diff changeset	687 maint = paste('Filter below',filterquantile,'quantile')
474c08e747b6 Uploaded iuc parents: diff changeset	688 }
474c08e747b6 Uploaded iuc parents: diff changeset	689 cumPlot(rawrs=rawrs,cleanrs=cleanrs,maint=maint,myTitle=myTitle)
474c08e747b6 Uploaded iuc parents: diff changeset	690 allgenes = rownames(workCM)
474c08e747b6 Uploaded iuc parents: diff changeset	691 reg = "^chr([0-9]+):([0-9]+)-([0-9]+)" # ucsc chr:start-end regexp
474c08e747b6 Uploaded iuc parents: diff changeset	692 genecards="<a href=\'http://www.genecards.org/index.php?path=/Search/keyword/"
474c08e747b6 Uploaded iuc parents: diff changeset	693 ucsc = paste("<a href=\'http://genome.ucsc.edu/cgi-bin/hgTracks?db=",org,sep='')
474c08e747b6 Uploaded iuc parents: diff changeset	694 testreg = str_match(allgenes,reg)
474c08e747b6 Uploaded iuc parents: diff changeset	695 if (sum(!is.na(testreg[,1]))/length(testreg[,1]) > 0.8) # is ucsc style string
474c08e747b6 Uploaded iuc parents: diff changeset	696 {
474c08e747b6 Uploaded iuc parents: diff changeset	697 print("@@ using ucsc substitution for urls")
474c08e747b6 Uploaded iuc parents: diff changeset	698 contigurls = paste0(ucsc,"&position=chr",testreg[,2],":",testreg[,3],"-",testreg[,4],"\'>",allgenes,"</a>")
474c08e747b6 Uploaded iuc parents: diff changeset	699 } else {
474c08e747b6 Uploaded iuc parents: diff changeset	700 print("@@ using genecards substitution for urls")
474c08e747b6 Uploaded iuc parents: diff changeset	701 contigurls = paste0(genecards,allgenes,"\'>",allgenes,"</a>")
474c08e747b6 Uploaded iuc parents: diff changeset	702 }
474c08e747b6 Uploaded iuc parents: diff changeset	703 print.noquote(paste("@@ Total low count contigs per sample = ",paste(table(lo),collapse=',')))
474c08e747b6 Uploaded iuc parents: diff changeset	704 cmrowsums = rowSums(workCM)
474c08e747b6 Uploaded iuc parents: diff changeset	705 TName=unique(group)[1]
474c08e747b6 Uploaded iuc parents: diff changeset	706 CName=unique(group)[2]
474c08e747b6 Uploaded iuc parents: diff changeset	707 if (is.null(mydesign)) {
474c08e747b6 Uploaded iuc parents: diff changeset	708 if (length(subjects) == 0)
474c08e747b6 Uploaded iuc parents: diff changeset	709 {
474c08e747b6 Uploaded iuc parents: diff changeset	710 mydesign = model.matrix(~group)
474c08e747b6 Uploaded iuc parents: diff changeset	711 }
474c08e747b6 Uploaded iuc parents: diff changeset	712 else {
474c08e747b6 Uploaded iuc parents: diff changeset	713 subjf = factor(subjects)
474c08e747b6 Uploaded iuc parents: diff changeset	714 mydesign = model.matrix(~subjf+group) # we block on subject so make group last to simplify finding it
474c08e747b6 Uploaded iuc parents: diff changeset	715 }
474c08e747b6 Uploaded iuc parents: diff changeset	716 }
474c08e747b6 Uploaded iuc parents: diff changeset	717 print.noquote(paste('Using samples:',paste(colnames(workCM),collapse=',')))
474c08e747b6 Uploaded iuc parents: diff changeset	718 print.noquote('Using design matrix:')
474c08e747b6 Uploaded iuc parents: diff changeset	719 print.noquote(mydesign)
474c08e747b6 Uploaded iuc parents: diff changeset	720 normData = cpm(workCM)*1e6
474c08e747b6 Uploaded iuc parents: diff changeset	721 colnames(normData) = paste( colnames(workCM),'N',sep="_")
474c08e747b6 Uploaded iuc parents: diff changeset	722 print(paste('Raw sample read totals',paste(colSums(nonzerod,na.rm=T),collapse=',')))
474c08e747b6 Uploaded iuc parents: diff changeset	723
474c08e747b6 Uploaded iuc parents: diff changeset	724 if (doedgeR == T) {
474c08e747b6 Uploaded iuc parents: diff changeset	725 eres = run_edgeR(workCM,pdata,subjects,group,priordf,robust_meth,mydesign,mt,cmrowsums,out_edgeR,nonzerod)
474c08e747b6 Uploaded iuc parents: diff changeset	726 myDGEList = eres\$myDGEList
474c08e747b6 Uploaded iuc parents: diff changeset	727 edgeRcounts = eres\$edgeRcounts
474c08e747b6 Uploaded iuc parents: diff changeset	728 #### Plot MDS
474c08e747b6 Uploaded iuc parents: diff changeset	729 sample_colors = match(group,levels(group))
474c08e747b6 Uploaded iuc parents: diff changeset	730 sampleTypes = levels(factor(group))
474c08e747b6 Uploaded iuc parents: diff changeset	731 print.noquote(sampleTypes)
474c08e747b6 Uploaded iuc parents: diff changeset	732 pdf(paste("edgeR",mt,"MDSplot.pdf",sep='_'))
474c08e747b6 Uploaded iuc parents: diff changeset	733 plotMDS.DGEList(myDGEList,main=paste("MDS for",myTitle),cex=0.5,col=sample_colors,pch=sample_colors)
474c08e747b6 Uploaded iuc parents: diff changeset	734 legend(x="topleft", legend = sampleTypes,col=c(1:length(sampleTypes)), pch=19)
474c08e747b6 Uploaded iuc parents: diff changeset	735 grid(col="blue")
474c08e747b6 Uploaded iuc parents: diff changeset	736 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	737 scale <- myDGEList\$samples\$lib.size*myDGEList\$samples\$norm.factors
474c08e747b6 Uploaded iuc parents: diff changeset	738 normCounts <- round(t(t(myDGEList\$counts)/scale)*mean(scale))
474c08e747b6 Uploaded iuc parents: diff changeset	739 try({boxPlot(rawrs=nzd,cleanrs=log2(normCounts+1),maint='Effects of TMM size normalisation',myTitle=myTitle,pdfname=paste("edgeR",mt,"raw_norm_counts_box.pdf",sep='_'))},T)
474c08e747b6 Uploaded iuc parents: diff changeset	740 }
474c08e747b6 Uploaded iuc parents: diff changeset	741 if (doDESeq2 == T) { DESeqcounts = run_DESeq2(workCM,pdata,subjects,group,out_DESeq2,mt,DESeq_fitType) }
474c08e747b6 Uploaded iuc parents: diff changeset	742 if (doVoom == T) { voomcounts = run_Voom(workCM,pdata,subjects,group,mydesign,mt,out_Voom) }
474c08e747b6 Uploaded iuc parents: diff changeset	743
474c08e747b6 Uploaded iuc parents: diff changeset	744
474c08e747b6 Uploaded iuc parents: diff changeset	745 if (doCamera) {
474c08e747b6 Uploaded iuc parents: diff changeset	746 doGSEA(y=myDGEList,design=mydesign,histgmt=histgmt,bigmt=bigmt,ntest=20,myTitle=myTitle,
474c08e747b6 Uploaded iuc parents: diff changeset	747 outfname=paste("GSEA_Camera",mt,"table.xls",sep="_"),fdrthresh=fdrthresh,fdrtype=fdrtype)
474c08e747b6 Uploaded iuc parents: diff changeset	748 }
474c08e747b6 Uploaded iuc parents: diff changeset	749 counts.dataframe = c()
474c08e747b6 Uploaded iuc parents: diff changeset	750 vennmain = 'no venn'
474c08e747b6 Uploaded iuc parents: diff changeset	751 if ((doDESeq2==T) \|\| (doVoom==T) \|\| (doedgeR==T)) {
474c08e747b6 Uploaded iuc parents: diff changeset	752 if ((doVoom==T) && (doDESeq2==T) && (doedgeR==T)) {
474c08e747b6 Uploaded iuc parents: diff changeset	753 vennmain = paste(mt,'Voom,edgeR and DESeq2 overlap at FDR=',fdrthresh)
474c08e747b6 Uploaded iuc parents: diff changeset	754 counts.dataframe = data.frame(edgeR = edgeRcounts, DESeq2 = DESeqcounts,
474c08e747b6 Uploaded iuc parents: diff changeset	755 VOOM_limma = voomcounts, row.names = allgenes)
474c08e747b6 Uploaded iuc parents: diff changeset	756 } else if ((doDESeq2==T) && (doedgeR==T)) {
474c08e747b6 Uploaded iuc parents: diff changeset	757 vennmain = paste(mt,'DESeq2 and edgeR overlap at FDR=',fdrthresh)
474c08e747b6 Uploaded iuc parents: diff changeset	758 counts.dataframe = data.frame(edgeR = edgeRcounts, DESeq2 = DESeqcounts, row.names = allgenes)
474c08e747b6 Uploaded iuc parents: diff changeset	759 } else if ((doVoom==T) && (doedgeR==T)) {
474c08e747b6 Uploaded iuc parents: diff changeset	760 vennmain = paste(mt,'Voom and edgeR overlap at FDR=',fdrthresh)
474c08e747b6 Uploaded iuc parents: diff changeset	761 counts.dataframe = data.frame(edgeR = edgeRcounts, VOOM_limma = voomcounts, row.names = allgenes)
474c08e747b6 Uploaded iuc parents: diff changeset	762 }
474c08e747b6 Uploaded iuc parents: diff changeset	763
474c08e747b6 Uploaded iuc parents: diff changeset	764 if (nrow(counts.dataframe > 1)) {
474c08e747b6 Uploaded iuc parents: diff changeset	765 counts.venn = vennCounts(counts.dataframe)
474c08e747b6 Uploaded iuc parents: diff changeset	766 vennf = paste("Differential_venn",mt,"significant_genes_overlap.pdf",sep="_")
474c08e747b6 Uploaded iuc parents: diff changeset	767 pdf(vennf)
474c08e747b6 Uploaded iuc parents: diff changeset	768 vennDiagram(counts.venn,main=vennmain,col="maroon")
474c08e747b6 Uploaded iuc parents: diff changeset	769 dev.off()
474c08e747b6 Uploaded iuc parents: diff changeset	770 }
474c08e747b6 Uploaded iuc parents: diff changeset	771 } #### doDESeq2 or doVoom
474c08e747b6 Uploaded iuc parents: diff changeset	772 sink()
474c08e747b6 Uploaded iuc parents: diff changeset	773 }
474c08e747b6 Uploaded iuc parents: diff changeset	774 #### Done
474c08e747b6 Uploaded iuc parents: diff changeset	775 ]]>
474c08e747b6 Uploaded iuc parents: diff changeset	776 builtin_gmt = ""
474c08e747b6 Uploaded iuc parents: diff changeset	777 history_gmt = ""
474c08e747b6 Uploaded iuc parents: diff changeset	778 history_gmt_name = ""
474c08e747b6 Uploaded iuc parents: diff changeset	779 out_edgeR = F
474c08e747b6 Uploaded iuc parents: diff changeset	780 out_DESeq2 = F
474c08e747b6 Uploaded iuc parents: diff changeset	781 out_Voom = "$out_VOOM"
474c08e747b6 Uploaded iuc parents: diff changeset	782 edgeR_robust_meth = "ordinary"
474c08e747b6 Uploaded iuc parents: diff changeset	783 doDESeq2 = $DESeq2.doDESeq2
474c08e747b6 Uploaded iuc parents: diff changeset	784 doVoom = $doVoom
474c08e747b6 Uploaded iuc parents: diff changeset	785 doCamera = F
474c08e747b6 Uploaded iuc parents: diff changeset	786 doedgeR = $edgeR.doedgeR
474c08e747b6 Uploaded iuc parents: diff changeset	787 edgeR_priordf = 10
474c08e747b6 Uploaded iuc parents: diff changeset	788
474c08e747b6 Uploaded iuc parents: diff changeset	789
474c08e747b6 Uploaded iuc parents: diff changeset	790 #if $doVoom == "T":
474c08e747b6 Uploaded iuc parents: diff changeset	791 out_Voom = "$out_VOOM"
474c08e747b6 Uploaded iuc parents: diff changeset	792 #end if
474c08e747b6 Uploaded iuc parents: diff changeset	793
474c08e747b6 Uploaded iuc parents: diff changeset	794 #if $DESeq2.doDESeq2 == "T":
474c08e747b6 Uploaded iuc parents: diff changeset	795 out_DESeq2 = "$out_DESeq2"
474c08e747b6 Uploaded iuc parents: diff changeset	796 doDESeq2 = T
474c08e747b6 Uploaded iuc parents: diff changeset	797 DESeq_fitType = "$DESeq2.DESeq_fitType"
474c08e747b6 Uploaded iuc parents: diff changeset	798 #end if
474c08e747b6 Uploaded iuc parents: diff changeset	799
474c08e747b6 Uploaded iuc parents: diff changeset	800 #if $edgeR.doedgeR == "T":
474c08e747b6 Uploaded iuc parents: diff changeset	801 out_edgeR = "$out_edgeR"
474c08e747b6 Uploaded iuc parents: diff changeset	802 edgeR_priordf = $edgeR.edgeR_priordf
474c08e747b6 Uploaded iuc parents: diff changeset	803 edgeR_robust_meth = "$edgeR.edgeR_robust_method"
474c08e747b6 Uploaded iuc parents: diff changeset	804 #end if
474c08e747b6 Uploaded iuc parents: diff changeset	805
474c08e747b6 Uploaded iuc parents: diff changeset	806
474c08e747b6 Uploaded iuc parents: diff changeset	807 if (sum(c(doedgeR,doVoom,doDESeq2)) == 0)
474c08e747b6 Uploaded iuc parents: diff changeset	808 {
474c08e747b6 Uploaded iuc parents: diff changeset	809 write("No methods chosen - nothing to do! Please try again after choosing one or more methods", stderr())
474c08e747b6 Uploaded iuc parents: diff changeset	810 quit(save="no",status=2)
474c08e747b6 Uploaded iuc parents: diff changeset	811 }
474c08e747b6 Uploaded iuc parents: diff changeset	812
474c08e747b6 Uploaded iuc parents: diff changeset	813 Out_Dir = "$html_file.files_path"
474c08e747b6 Uploaded iuc parents: diff changeset	814 Input = "$input1"
474c08e747b6 Uploaded iuc parents: diff changeset	815 TreatmentName = "$treatment_name"
474c08e747b6 Uploaded iuc parents: diff changeset	816 TreatmentCols = "$Treat_cols"
474c08e747b6 Uploaded iuc parents: diff changeset	817 ControlName = "$control_name"
474c08e747b6 Uploaded iuc parents: diff changeset	818 ControlCols= "$Control_cols"
474c08e747b6 Uploaded iuc parents: diff changeset	819 org = "$input1.dbkey"
474c08e747b6 Uploaded iuc parents: diff changeset	820 if (org == "") { org = "hg19"}
474c08e747b6 Uploaded iuc parents: diff changeset	821 fdrtype = "$fdrtype"
474c08e747b6 Uploaded iuc parents: diff changeset	822 fdrthresh = $fdrthresh
474c08e747b6 Uploaded iuc parents: diff changeset	823 useNDF = $useNDF
474c08e747b6 Uploaded iuc parents: diff changeset	824 fQ = $fQ # non-differential centile cutoff
474c08e747b6 Uploaded iuc parents: diff changeset	825 myTitle = "$title"
474c08e747b6 Uploaded iuc parents: diff changeset	826 sids = strsplit("$subjectids",',')
474c08e747b6 Uploaded iuc parents: diff changeset	827 subjects = unlist(sids)
474c08e747b6 Uploaded iuc parents: diff changeset	828 nsubj = length(subjects)
474c08e747b6 Uploaded iuc parents: diff changeset	829 TCols = as.numeric(strsplit(TreatmentCols,",")[[1]])-1
474c08e747b6 Uploaded iuc parents: diff changeset	830 CCols = as.numeric(strsplit(ControlCols,",")[[1]])-1
474c08e747b6 Uploaded iuc parents: diff changeset	831 cat('Got TCols=')
474c08e747b6 Uploaded iuc parents: diff changeset	832 cat(TCols)
474c08e747b6 Uploaded iuc parents: diff changeset	833 cat('; CCols=')
474c08e747b6 Uploaded iuc parents: diff changeset	834 cat(CCols)
474c08e747b6 Uploaded iuc parents: diff changeset	835 cat('\n')
474c08e747b6 Uploaded iuc parents: diff changeset	836 <![CDATA[
474c08e747b6 Uploaded iuc parents: diff changeset	837 useCols = c(TCols,CCols)
474c08e747b6 Uploaded iuc parents: diff changeset	838 if (file.exists(Out_Dir) == F) dir.create(Out_Dir)
474c08e747b6 Uploaded iuc parents: diff changeset	839 Count_Matrix = read.table(Input,header=T,row.names=1,sep='\t')
474c08e747b6 Uploaded iuc parents: diff changeset	840 snames = colnames(Count_Matrix)
474c08e747b6 Uploaded iuc parents: diff changeset	841 nsamples = length(snames)
474c08e747b6 Uploaded iuc parents: diff changeset	842 if (nsubj > 0 & nsubj != nsamples) {
474c08e747b6 Uploaded iuc parents: diff changeset	843 options("show.error.messages"=T)
474c08e747b6 Uploaded iuc parents: diff changeset	844 mess = paste('Fatal error: Supplied subject id list',paste(subjects,collapse=','),
474c08e747b6 Uploaded iuc parents: diff changeset	845 'has length',nsubj,'but there are',nsamples,'samples',paste(snames,collapse=','))
474c08e747b6 Uploaded iuc parents: diff changeset	846 write(mess, stderr())
474c08e747b6 Uploaded iuc parents: diff changeset	847 quit(save="no",status=4)
474c08e747b6 Uploaded iuc parents: diff changeset	848 }
474c08e747b6 Uploaded iuc parents: diff changeset	849 if (length(subjects) != 0) {subjects = subjects[useCols]}
474c08e747b6 Uploaded iuc parents: diff changeset	850 Count_Matrix = Count_Matrix[,useCols] ### reorder columns
474c08e747b6 Uploaded iuc parents: diff changeset	851 rn = rownames(Count_Matrix)
474c08e747b6 Uploaded iuc parents: diff changeset	852 islib = rn %in% c('librarySize','NotInBedRegions')
474c08e747b6 Uploaded iuc parents: diff changeset	853 LibSizes = Count_Matrix[subset(rn,islib),][1] # take first
474c08e747b6 Uploaded iuc parents: diff changeset	854 Count_Matrix = Count_Matrix[subset(rn,! islib),]
474c08e747b6 Uploaded iuc parents: diff changeset	855 group = c(rep(TreatmentName,length(TCols)), rep(ControlName,length(CCols)) )
474c08e747b6 Uploaded iuc parents: diff changeset	856 group = factor(group, levels=c(ControlName,TreatmentName))
474c08e747b6 Uploaded iuc parents: diff changeset	857 colnames(Count_Matrix) = paste(group,colnames(Count_Matrix),sep="_")
474c08e747b6 Uploaded iuc parents: diff changeset	858 results = edgeIt(Count_Matrix=Count_Matrix,group=group, out_edgeR=out_edgeR, out_Voom=out_Voom, out_DESeq2=out_DESeq2,
474c08e747b6 Uploaded iuc parents: diff changeset	859 fdrtype='BH',mydesign=NULL,priordf=edgeR_priordf,fdrthresh=fdrthresh,outputdir='.',
474c08e747b6 Uploaded iuc parents: diff changeset	860 myTitle=myTitle,useNDF=F,libSize=c(),filterquantile=fQ,subjects=subjects,TreatmentName=TreatmentName,ControlName=ControlName,
474c08e747b6 Uploaded iuc parents: diff changeset	861 doDESeq2=doDESeq2,doVoom=doVoom,doCamera=doCamera,doedgeR=doedgeR,org=org,
474c08e747b6 Uploaded iuc parents: diff changeset	862 histgmt=history_gmt,bigmt=builtin_gmt,DESeq_fitType=DESeq_fitType,robust_meth=edgeR_robust_meth)
474c08e747b6 Uploaded iuc parents: diff changeset	863 sessionInfo()
474c08e747b6 Uploaded iuc parents: diff changeset	864
474c08e747b6 Uploaded iuc parents: diff changeset	865 sink()
474c08e747b6 Uploaded iuc parents: diff changeset	866 ]]>
474c08e747b6 Uploaded iuc parents: diff changeset	867 </configfile>
474c08e747b6 Uploaded iuc parents: diff changeset	868 </configfiles>
474c08e747b6 Uploaded iuc parents: diff changeset	869 <help>
474c08e747b6 Uploaded iuc parents: diff changeset	870
474c08e747b6 Uploaded iuc parents: diff changeset	871 What it does
474c08e747b6 Uploaded iuc parents: diff changeset	872
474c08e747b6 Uploaded iuc parents: diff changeset	873 Allows short read sequence counts from controlled experiments to be analysed for differentially expressed genes.
474c08e747b6 Uploaded iuc parents: diff changeset	874 Optionally adds a term for subject if not all samples are independent or if some other factor needs to be blocked in the design.
474c08e747b6 Uploaded iuc parents: diff changeset	875
474c08e747b6 Uploaded iuc parents: diff changeset	876 Input
474c08e747b6 Uploaded iuc parents: diff changeset	877
474c08e747b6 Uploaded iuc parents: diff changeset	878 Requires a count matrix as a tabular file. These are best made using the companion HTSeq_ based counter Galaxy wrapper
474c08e747b6 Uploaded iuc parents: diff changeset	879 and your fave gene model to generate inputs. Each row is a genomic feature (gene or exon eg) and each column the
474c08e747b6 Uploaded iuc parents: diff changeset	880 non-negative integer count of reads from one sample overlapping the feature.
474c08e747b6 Uploaded iuc parents: diff changeset	881
474c08e747b6 Uploaded iuc parents: diff changeset	882 The matrix must have a header row uniquely identifying the source samples, and unique row names in
474c08e747b6 Uploaded iuc parents: diff changeset	883 the first column. Typically the row names are gene symbols or probe ids for downstream use in GSEA and other methods.
474c08e747b6 Uploaded iuc parents: diff changeset	884 They must be unique and R names or they will be mangled - please read the fine R docs for the rules on identifiers.
474c08e747b6 Uploaded iuc parents: diff changeset	885
474c08e747b6 Uploaded iuc parents: diff changeset	886 Specifying comparisons
474c08e747b6 Uploaded iuc parents: diff changeset	887
474c08e747b6 Uploaded iuc parents: diff changeset	888 This is basically dumbed down for two factors - case vs control.
474c08e747b6 Uploaded iuc parents: diff changeset	889
474c08e747b6 Uploaded iuc parents: diff changeset	890 More complex interfaces are possible but painful at present.
474c08e747b6 Uploaded iuc parents: diff changeset	891 Probably need to specify a phenotype file to do this better.
474c08e747b6 Uploaded iuc parents: diff changeset	892 Work in progress. Send code.
474c08e747b6 Uploaded iuc parents: diff changeset	893
474c08e747b6 Uploaded iuc parents: diff changeset	894 If you have (eg) paired samples and wish to include a term in the GLM to account for some other factor (subject in the case of paired samples),
474c08e747b6 Uploaded iuc parents: diff changeset	895 put a comma separated list of indicators for every sample (whether modelled or not!) indicating (eg) the subject number or
474c08e747b6 Uploaded iuc parents: diff changeset	896 A list of integers, one for each subject or an empty string if samples are all independent.
474c08e747b6 Uploaded iuc parents: diff changeset	897 If not empty, there must be exactly as many integers in the supplied integer list as there are columns (samples) in the count matrix.
474c08e747b6 Uploaded iuc parents: diff changeset	898 Integers for samples that are not in the analysis must be present in the string as filler even if not used.
474c08e747b6 Uploaded iuc parents: diff changeset	899
474c08e747b6 Uploaded iuc parents: diff changeset	900 So if you have 2 pairs out of 6 samples, you need to put in unique integers for the unpaired ones
474c08e747b6 Uploaded iuc parents: diff changeset	901 eg if you had 6 samples with the first two independent but the second and third pairs each being from independent subjects. you might use
474c08e747b6 Uploaded iuc parents: diff changeset	902 8,9,1,1,2,2
474c08e747b6 Uploaded iuc parents: diff changeset	903 as subject IDs to indicate two paired samples from the same subject in columns 3/4 and 5/6
474c08e747b6 Uploaded iuc parents: diff changeset	904
474c08e747b6 Uploaded iuc parents: diff changeset	905 Methods available
474c08e747b6 Uploaded iuc parents: diff changeset	906
474c08e747b6 Uploaded iuc parents: diff changeset	907 You can run 3 popular Bioconductor packages available for count data.
474c08e747b6 Uploaded iuc parents: diff changeset	908
474c08e747b6 Uploaded iuc parents: diff changeset	909 edgeR - see edgeR_ for details
474c08e747b6 Uploaded iuc parents: diff changeset	910
474c08e747b6 Uploaded iuc parents: diff changeset	911 VOOM/limma - see limma_VOOM_ for details
474c08e747b6 Uploaded iuc parents: diff changeset	912
474c08e747b6 Uploaded iuc parents: diff changeset	913 DESeq2 - see DESeq2_ for details
474c08e747b6 Uploaded iuc parents: diff changeset	914
474c08e747b6 Uploaded iuc parents: diff changeset	915 and optionally camera in edgeR which works better if MSigDB is installed.
474c08e747b6 Uploaded iuc parents: diff changeset	916
474c08e747b6 Uploaded iuc parents: diff changeset	917 Outputs
474c08e747b6 Uploaded iuc parents: diff changeset	918
474c08e747b6 Uploaded iuc parents: diff changeset	919 Some helpful plots and analysis results. Note that most of these are produced using R code
474c08e747b6 Uploaded iuc parents: diff changeset	920 suggested by the excellent documentation and vignettes for the Bioconductor
474c08e747b6 Uploaded iuc parents: diff changeset	921 packages invoked. The Tool Factory is used to automatically lay these out for you to enjoy.
474c08e747b6 Uploaded iuc parents: diff changeset	922
474c08e747b6 Uploaded iuc parents: diff changeset	923 Note on Voom
474c08e747b6 Uploaded iuc parents: diff changeset	924
474c08e747b6 Uploaded iuc parents: diff changeset	925 The voom from limma version 3.16.6 help in R includes this from the authors - but you should read the paper to interpret this method.
474c08e747b6 Uploaded iuc parents: diff changeset	926
474c08e747b6 Uploaded iuc parents: diff changeset	927 This function is intended to process RNA-Seq or ChIP-Seq data prior to linear modelling in limma.
474c08e747b6 Uploaded iuc parents: diff changeset	928
474c08e747b6 Uploaded iuc parents: diff changeset	929 voom is an acronym for mean-variance modelling at the observational level.
474c08e747b6 Uploaded iuc parents: diff changeset	930 The key concern is to estimate the mean-variance relationship in the data, then use this to compute appropriate weights for each observation.
474c08e747b6 Uploaded iuc parents: diff changeset	931 Count data almost show non-trivial mean-variance relationships. Raw counts show increasing variance with increasing count size, while log-counts typically show a decreasing mean-variance trend.
474c08e747b6 Uploaded iuc parents: diff changeset	932 This function estimates the mean-variance trend for log-counts, then assigns a weight to each observation based on its predicted variance.
474c08e747b6 Uploaded iuc parents: diff changeset	933 The weights are then used in the linear modelling process to adjust for heteroscedasticity.
474c08e747b6 Uploaded iuc parents: diff changeset	934
474c08e747b6 Uploaded iuc parents: diff changeset	935 In an experiment, a count value is observed for each tag in each sample. A tag-wise mean-variance trend is computed using lowess.
474c08e747b6 Uploaded iuc parents: diff changeset	936 The tag-wise mean is the mean log2 count with an offset of 0.5, across samples for a given tag.
474c08e747b6 Uploaded iuc parents: diff changeset	937 The tag-wise variance is the quarter-root-variance of normalized log2 counts per million values with an offset of 0.5, across samples for a given tag.
474c08e747b6 Uploaded iuc parents: diff changeset	938 Tags with zero counts across all samples are not included in the lowess fit. Optional normalization is performed using normalizeBetweenArrays.
474c08e747b6 Uploaded iuc parents: diff changeset	939 Using fitted values of log2 counts from a linear model fit by lmFit, variances from the mean-variance trend were interpolated for each observation.
474c08e747b6 Uploaded iuc parents: diff changeset	940 This was carried out by approxfun. Inverse variance weights can be used to correct for mean-variance trend in the count data.
474c08e747b6 Uploaded iuc parents: diff changeset	941
474c08e747b6 Uploaded iuc parents: diff changeset	942
474c08e747b6 Uploaded iuc parents: diff changeset	943 Author(s)
474c08e747b6 Uploaded iuc parents: diff changeset	944
474c08e747b6 Uploaded iuc parents: diff changeset	945 Charity Law and Gordon Smyth
474c08e747b6 Uploaded iuc parents: diff changeset	946
474c08e747b6 Uploaded iuc parents: diff changeset	947 References
474c08e747b6 Uploaded iuc parents: diff changeset	948
474c08e747b6 Uploaded iuc parents: diff changeset	949 Law, CW (2013). Precision weights for gene expression analysis. PhD Thesis. University of Melbourne, Australia.
474c08e747b6 Uploaded iuc parents: diff changeset	950
474c08e747b6 Uploaded iuc parents: diff changeset	951 Law, CW, Chen, Y, Shi, W, Smyth, GK (2013). Voom! Precision weights unlock linear model analysis tools for RNA-seq read counts.
474c08e747b6 Uploaded iuc parents: diff changeset	952 Technical Report 1 May 2013, Bioinformatics Division, Walter and Eliza Hall Institute of Medical Reseach, Melbourne, Australia.
474c08e747b6 Uploaded iuc parents: diff changeset	953 http://www.statsci.org/smyth/pubs/VoomPreprint.pdf
474c08e747b6 Uploaded iuc parents: diff changeset	954
474c08e747b6 Uploaded iuc parents: diff changeset	955 See Also
474c08e747b6 Uploaded iuc parents: diff changeset	956
474c08e747b6 Uploaded iuc parents: diff changeset	957 A voom case study is given in the edgeR User's Guide.
474c08e747b6 Uploaded iuc parents: diff changeset	958
474c08e747b6 Uploaded iuc parents: diff changeset	959 vooma is a similar function but for microarrays instead of RNA-seq.
474c08e747b6 Uploaded iuc parents: diff changeset	960
474c08e747b6 Uploaded iuc parents: diff changeset	961
474c08e747b6 Uploaded iuc parents: diff changeset	962 *old rant on changes to Bioconductor package variable names between versions*
474c08e747b6 Uploaded iuc parents: diff changeset	963
474c08e747b6 Uploaded iuc parents: diff changeset	964 The edgeR authors made a small cosmetic change in the name of one important variable (from p.value to PValue)
474c08e747b6 Uploaded iuc parents: diff changeset	965 breaking this and all other code that assumed the old name for this variable,
474c08e747b6 Uploaded iuc parents: diff changeset	966 between edgeR2.4.4 and 2.4.6 (the version for R 2.14 as at the time of writing).
474c08e747b6 Uploaded iuc parents: diff changeset	967 This means that all code using edgeR is sensitive to the version. I think this was a very unwise thing
474c08e747b6 Uploaded iuc parents: diff changeset	968 to do because it wasted hours of my time to track down and will similarly cost other edgeR users dearly
474c08e747b6 Uploaded iuc parents: diff changeset	969 when their old scripts break. This tool currently now works with 2.4.6.
474c08e747b6 Uploaded iuc parents: diff changeset	970
474c08e747b6 Uploaded iuc parents: diff changeset	971 Note on prior.N
474c08e747b6 Uploaded iuc parents: diff changeset	972
474c08e747b6 Uploaded iuc parents: diff changeset	973 http://seqanswers.com/forums/showthread.php?t=5591 says:
474c08e747b6 Uploaded iuc parents: diff changeset	974
474c08e747b6 Uploaded iuc parents: diff changeset	975 prior.n
474c08e747b6 Uploaded iuc parents: diff changeset	976
474c08e747b6 Uploaded iuc parents: diff changeset	977 The value for prior.n determines the amount of smoothing of tagwise dispersions towards the common dispersion.
474c08e747b6 Uploaded iuc parents: diff changeset	978 You can think of it as like a "weight" for the common value. (It is actually the weight for the common likelihood
474c08e747b6 Uploaded iuc parents: diff changeset	979 in the weighted likelihood equation). The larger the value for prior.n, the more smoothing, i.e. the closer your
474c08e747b6 Uploaded iuc parents: diff changeset	980 tagwise dispersion estimates will be to the common dispersion. If you use a prior.n of 1, then that gives the
474c08e747b6 Uploaded iuc parents: diff changeset	981 common likelihood the weight of one observation.
474c08e747b6 Uploaded iuc parents: diff changeset	982
474c08e747b6 Uploaded iuc parents: diff changeset	983 In answer to your question, it is a good thing to squeeze the tagwise dispersions towards a common value,
474c08e747b6 Uploaded iuc parents: diff changeset	984 or else you will be using very unreliable estimates of the dispersion. I would not recommend using the value that
474c08e747b6 Uploaded iuc parents: diff changeset	985 you obtained from estimateSmoothing()---this is far too small and would result in virtually no moderation
474c08e747b6 Uploaded iuc parents: diff changeset	986 (squeezing) of the tagwise dispersions. How many samples do you have in your experiment?
474c08e747b6 Uploaded iuc parents: diff changeset	987 What is the experimental design? If you have few samples (less than 6) then I would suggest a prior.n of at least 10.
474c08e747b6 Uploaded iuc parents: diff changeset	988 If you have more samples, then the tagwise dispersion estimates will be more reliable,
474c08e747b6 Uploaded iuc parents: diff changeset	989 so you could consider using a smaller prior.n, although I would hesitate to use a prior.n less than 5.
474c08e747b6 Uploaded iuc parents: diff changeset	990
474c08e747b6 Uploaded iuc parents: diff changeset	991
474c08e747b6 Uploaded iuc parents: diff changeset	992 From Bioconductor Digest, Vol 118, Issue 5, Gordon writes:
474c08e747b6 Uploaded iuc parents: diff changeset	993
474c08e747b6 Uploaded iuc parents: diff changeset	994 Dear Dorota,
474c08e747b6 Uploaded iuc parents: diff changeset	995
474c08e747b6 Uploaded iuc parents: diff changeset	996 The important settings are prior.df and trend.
474c08e747b6 Uploaded iuc parents: diff changeset	997
474c08e747b6 Uploaded iuc parents: diff changeset	998 prior.n and prior.df are related through prior.df = prior.n * residual.df,
474c08e747b6 Uploaded iuc parents: diff changeset	999 and your experiment has residual.df = 36 - 12 = 24. So the old setting of
474c08e747b6 Uploaded iuc parents: diff changeset	1000 prior.n=10 is equivalent for your data to prior.df = 240, a very large
474c08e747b6 Uploaded iuc parents: diff changeset	1001 value. Going the other way, the new setting of prior.df=10 is equivalent
474c08e747b6 Uploaded iuc parents: diff changeset	1002 to prior.n=10/24.
474c08e747b6 Uploaded iuc parents: diff changeset	1003
474c08e747b6 Uploaded iuc parents: diff changeset	1004 To recover old results with the current software you would use
474c08e747b6 Uploaded iuc parents: diff changeset	1005
474c08e747b6 Uploaded iuc parents: diff changeset	1006 estimateTagwiseDisp(object, prior.df=240, trend="none")
474c08e747b6 Uploaded iuc parents: diff changeset	1007
474c08e747b6 Uploaded iuc parents: diff changeset	1008 To get the new default from old software you would use
474c08e747b6 Uploaded iuc parents: diff changeset	1009
474c08e747b6 Uploaded iuc parents: diff changeset	1010 estimateTagwiseDisp(object, prior.n=10/24, trend=TRUE)
474c08e747b6 Uploaded iuc parents: diff changeset	1011
474c08e747b6 Uploaded iuc parents: diff changeset	1012 Actually the old trend method is equivalent to trend="loess" in the new
474c08e747b6 Uploaded iuc parents: diff changeset	1013 software. You should use plotBCV(object) to see whether a trend is
474c08e747b6 Uploaded iuc parents: diff changeset	1014 required.
474c08e747b6 Uploaded iuc parents: diff changeset	1015
474c08e747b6 Uploaded iuc parents: diff changeset	1016 Note you could also use
474c08e747b6 Uploaded iuc parents: diff changeset	1017
474c08e747b6 Uploaded iuc parents: diff changeset	1018 prior.n = getPriorN(object, prior.df=10)
474c08e747b6 Uploaded iuc parents: diff changeset	1019
474c08e747b6 Uploaded iuc parents: diff changeset	1020 to map between prior.df and prior.n.
474c08e747b6 Uploaded iuc parents: diff changeset	1021
474c08e747b6 Uploaded iuc parents: diff changeset	1022 ----
474c08e747b6 Uploaded iuc parents: diff changeset	1023
474c08e747b6 Uploaded iuc parents: diff changeset	1024 Attributions
474c08e747b6 Uploaded iuc parents: diff changeset	1025
474c08e747b6 Uploaded iuc parents: diff changeset	1026 edgeR - edgeR_
474c08e747b6 Uploaded iuc parents: diff changeset	1027
474c08e747b6 Uploaded iuc parents: diff changeset	1028 VOOM/limma - limma_VOOM_
474c08e747b6 Uploaded iuc parents: diff changeset	1029
474c08e747b6 Uploaded iuc parents: diff changeset	1030 DESeq2 - DESeq2_ for details
474c08e747b6 Uploaded iuc parents: diff changeset	1031
474c08e747b6 Uploaded iuc parents: diff changeset	1032 See above for Bioconductor package documentation for packages exposed in Galaxy by this tool and app store package.
474c08e747b6 Uploaded iuc parents: diff changeset	1033
474c08e747b6 Uploaded iuc parents: diff changeset	1034 Galaxy_ (that's what you are using right now!) for gluing everything together
474c08e747b6 Uploaded iuc parents: diff changeset	1035
474c08e747b6 Uploaded iuc parents: diff changeset	1036 Otherwise, all code and documentation comprising this tool was written by Ross Lazarus and is
474c08e747b6 Uploaded iuc parents: diff changeset	1037 licensed to you under the LGPL_ like other rgenetics artefacts
474c08e747b6 Uploaded iuc parents: diff changeset	1038
474c08e747b6 Uploaded iuc parents: diff changeset	1039 .. _LGPL: http://www.gnu.org/copyleft/lesser.html
474c08e747b6 Uploaded iuc parents: diff changeset	1040 .. _HTSeq: http://www-huber.embl.de/users/anders/HTSeq/doc/index.html
474c08e747b6 Uploaded iuc parents: diff changeset	1041 .. _edgeR: http://www.bioconductor.org/packages/release/bioc/html/edgeR.html
474c08e747b6 Uploaded iuc parents: diff changeset	1042 .. _DESeq2: http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html
474c08e747b6 Uploaded iuc parents: diff changeset	1043 .. _limma_VOOM: http://www.bioconductor.org/packages/release/bioc/html/limma.html
474c08e747b6 Uploaded iuc parents: diff changeset	1044 .. _Galaxy: http://getgalaxy.org
474c08e747b6 Uploaded iuc parents: diff changeset	1045 </help>
474c08e747b6 Uploaded iuc parents: diff changeset	1046 <citations>
474c08e747b6 Uploaded iuc parents: diff changeset	1047 <citation type="doi">doi: 10.1093/bioinformatics/btp616</citation>
474c08e747b6 Uploaded iuc parents: diff changeset	1048 </citations>
474c08e747b6 Uploaded iuc parents: diff changeset	1049 </tool>

Mercurial > repos > fubar > differential_count_models

annotate rgedgeRpaired_nocamera.xml @ 146:474c08e747b6 draft