ucsc_cluster_tools2: cluster.tools/consensus.clustering.R annotate

annotate cluster.tools/consensus.clustering.R @ 5:cbc3ecce98ee draft

Uploaded

author	peter-waltman
date	Fri, 01 Mar 2013 19:53:49 -0500
parents	0decf3fd54bc
children

rev	line source
0 0decf3fd54bc Uploaded peter-waltman parents: diff changeset	1 #!/usr/bin/env Rscript
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	2 ## Consensus Clustering Script by Peter Waltman
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	3 ## May 31, 2011
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	4 ## License under Creative Commons Attribution 3.0 Unported (CC BY 3.0)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	5 ##
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	6 #usage, options and doc goes here
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	7 argspec <- c("consensus.clustering.R takes a clustering from ConsensusClusterPlus and clinical survival data
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	8 and generates a KM-plot, along with the log-rank p-values
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	9
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	10 Usage:
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	11 consensus.clustering.R -d <data.file>
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	12 Optional:
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	13 -o <output.name>
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	14 -a <cluster.alg> ## must be either 'hc' or 'km'
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	15 -m <distance.metric> ## must be one supported by ConsensusClusterPlus
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	16 -k <max.k>
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	17 -r <reps>
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	18 -f <filter> ## filter, o/w no filtering
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	19
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	20 \n\n")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	21 args <- commandArgs(TRUE)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	22 if ( length( args ) == 1 && args =="--help") {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	23 write(argspec, stderr())
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	24 q();
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	25 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	26
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	27 lib.load.quiet <- function( package ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	28 package <- as.character(substitute(package))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	29 suppressPackageStartupMessages( do.call( "library", list( package=package ) ) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	30 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	31 lib.load.quiet(getopt)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	32 lib.load.quiet( gplots )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	33 lib.load.quiet( amap )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	34 ## if any of the faster clustering methods are available on this system, load them
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	35 if ( any( c( 'flashClust', 'fastcluster' ) %in% installed.packages() ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	36 if ( 'flashClust' %in% installed.packages() ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	37 lib.load.quiet( flashClust )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	38 } else {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	39 if ( 'fastcluster' %in% installed.packages() ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	40 lib.load.quiet( fastcluster )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	41 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	42 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	43 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	44 ##lib.load.quiet(ConsensusClusterPlus)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	45 lib.load.quiet( amap )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	46 lib.load.quiet( cluster )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	47
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	48 ###################
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	49 ## code borrowed/updated from ConsensusClusterPlus
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	50 ###################
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	51
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	52 ConsensusClusterPlus <- function( d=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	53 maxK = 3,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	54 reps=10,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	55 pItem=0.8,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	56 pFeature=1,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	57 clusterAlg="hc",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	58 title="untitled_consensus_cluster",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	59 innerLinkage="average",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	60 finalLinkage="average",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	61 distance=ifelse( inherits(d,"dist"), attr( d, "method" ), "euclidean" ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	62 ml=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	63 tmyPal=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	64 seed=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	65 plot=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	66 writeTable=FALSE,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	67 weightsItem=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	68 weightsFeature=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	69 verbose=F ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	70 ##description: runs consensus subsamples
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	71
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	72
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	73 if(is.null(seed)==TRUE){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	74 seed=timeSeed = as.numeric(Sys.time())
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	75 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	76 set.seed(seed)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	77
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	78 if(is.null(ml)==TRUE){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	79
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	80 if ( inherits( distance, "dist" ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	81 stop( "If you want to pass in a pre-calculated distance object, pass it in as the data, rather than the distance parameter\n" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	82 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	83
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	84 if ( ! class( d ) %in% c( "dist", "matrix", "ExpressionSet" ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	85 stop("d must be a matrix, distance object or ExpressionSet (eset object)")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	86 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	87
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	88 if ( inherits( d, "dist" ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	89 ## if d is a distance matrix, fix a few things so that they don't cause problems with the analysis
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	90 ## Note, assumption is that if d is a distance matrix, the user doesn't want to sample over the row features
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	91 if ( is.null( attr( d, "method" ) ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	92 attr( d, "method" ) <- distance <- "unknown - user-specified"
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	93 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	94 if ( is.null( distance ) \|\| ( distance != attr( d, "method" ) ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	95 distance <- attr( d, "method" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	96 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	97
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	98 if ( ( ! is.null( pFeature ) ) && ( pFeature < 1 ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	99 if ( verbose ) warning( "Cannot use the pFeatures parameter when specifying a distance matrix as the data object\n" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	100 pFeature <- 1
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	101 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	102 if ( ! is.null( weightsFeature ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	103 if ( verbose ) warning( "Cannot use the weightsFeature parameter when specifying a distance matrix as the data object\n" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	104 weightsFeature <- NULL
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	105 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	106 if ( clusterAlg == "km" ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	107 if ( verbose ) warning( "You are asking CCPLUS to use K-means to cluster a distance matrix (rather than the data itself) - this may produce unintended results. We suggest using PAM if you want to use alternate distance metrics/objects\n" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	108 ##d <- as.matrix( d ) #this is now done w/in ccRun
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	109 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	110 } else {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	111 if ( is.null( distance ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	112 ## we should never get here, but just in case
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	113 distance <- "pearson"
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	114 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	115 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	116
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	117 if ( ( clusterAlg == "km" ) && inherits( distance, "character" ) && ( distance != "euclidean" ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	118 warning( "WARNING: kmeans can only use the euclidean distance metric. If you would like to use an alternate metric, we suggest using PAM or HC clustering instead. This parameter combinationwill use k-means, but will NOT use the specified distance metric\n" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	119 distance <- 'euclidean'
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	120 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	121
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	122
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	123 if ( inherits( d,"ExpressionSet" ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	124 d <- exprs(d)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	125 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	126
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	127 ml <- ccRun( d=d,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	128 maxK=maxK,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	129 repCount=reps,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	130 diss=inherits(d,"dist"),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	131 pItem=pItem,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	132 pFeature=pFeature,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	133 innerLinkage=innerLinkage,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	134 clusterAlg=clusterAlg,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	135 weightsFeature=weightsFeature,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	136 weightsItem=weightsItem,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	137 distance=distance,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	138 verbose=verbose)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	139 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	140 res=list();
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	141
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	142 ##make results directory
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	143 if((is.null(plot)==FALSE \| writeTable) & !file.exists(paste(title,sep=""))){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	144 dir.create(paste(title,sep=""))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	145 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	146
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	147 ##write log file
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	148 log <- matrix( ncol=2,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	149 byrow=T,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	150 c("title",title,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	151 "maxK",maxK,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	152 "input matrix rows",ifelse ( inherits( d, "matrix" ), nrow(d), "dist-mat" ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	153 "input matric columns",ifelse ( inherits( d, "matrix" ), ncol(d), ncol( as.matrix(d) ) ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	154 "number of bootstraps",reps,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	155 "item subsampling proportion",pItem,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	156 "feature subsampling proportion",ifelse( is.null(pFeature), 1, pFeature ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	157 "cluster algorithm",clusterAlg,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	158 "inner linkage type",innerLinkage,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	159 "final linkage type",finalLinkage,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	160 "correlation method",distance,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	161 "plot",if(is.null(plot)) NA else plot,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	162 "seed",if(is.null(seed)) NA else seed))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	163 colnames(log) = c("option","value")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	164 if(writeTable){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	165 write.csv(file=paste(title,"/",title,".log.csv",sep=""), log,row.names=F)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	166 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	167 if(is.null(plot)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	168 ##nothing
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	169 }else if(plot=="png"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	170 png(paste(title,"/","consensus%03d.png",sep=""))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	171 }else if (plot=="pdf"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	172 pdf(onefile=TRUE, paste(title,"/","consensus.pdf",sep=""))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	173 }else if (plot=="ps"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	174 postscript(onefile=TRUE, paste(title,"/","consensus.ps",sep=""))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	175 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	176
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	177 colorList=list()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	178 colorM = rbind() #matrix of colors.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	179
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	180 #18 colors for marking different clusters
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	181 thisPal <- c("#A6CEE3","#1F78B4","#B2DF8A","#33A02C","#FB9A99","#E31A1C","#FDBF6F","#FF7F00","#CAB2D6","#6A3D9A","#FFFF99","#B15928",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	182 "#bd18ea", #magenta
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	183 "#2ef4ca", #aqua
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	184 "#f4cced", #pink,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	185 "#f4cc03", #lightorange
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	186 "#05188a", #navy,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	187 "#e5a25a", #light brown
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	188 "#06f106", #bright green
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	189 "#85848f", #med gray
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	190 "#000000", #black
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	191 "#076f25", #dark green
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	192 "#93cd7f",#lime green
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	193 "#4d0776", #dark purple
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	194 "#ffffff" #white
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	195 )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	196
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	197 ##plot scale
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	198 colBreaks=NA
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	199 if(is.null(tmyPal)==TRUE){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	200 colBreaks=10
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	201 tmyPal = myPal(colBreaks)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	202 }else{
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	203 colBreaks=length(tmyPal)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	204 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	205 sc = cbind(seq(0,1,by=1/( colBreaks) )); rownames(sc) = sc[,1]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	206 sc = cbind(sc,sc)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	207 heatmap(sc, Colv=NA, Rowv=NA, symm=FALSE, scale='none', col=tmyPal, na.rm=TRUE,labRow=rownames(sc),labCol=F,main="consensus matrix legend")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	208
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	209 for (tk in 2:maxK){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	210 if(verbose){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	211 message(paste("consensus ",tk))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	212 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	213 fm = ml[[tk]]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	214 hc=hclust( as.dist( 1 - fm ), method=finalLinkage);
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	215 message("clustered")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	216 ct = cutree(hc,tk)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	217 names(ct) = colnames(d)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	218 c = fm
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	219 ##colnames(c) = colnames(d)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	220 ##rownames(c) = colnames(d)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	221
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	222 colorList = setClusterColors(res[[tk-1]][[3]],ct,thisPal,colorList)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	223
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	224 pc = c
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	225 pc=pc[hc$order,] #***pc is matrix for plotting, same as c but is row-ordered and has names and extra row of zeros.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	226 pc = rbind(pc,0)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	227
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	228 heatmap(pc, Colv=as.dendrogram(hc), Rowv=NA, symm=FALSE, scale='none', col=tmyPal, na.rm=TRUE,labRow=F,labCol=F,mar=c(5,5),main=paste("consensus matrix k=",tk,sep="") , ColSideCol=colorList[[1]])
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	229 legend("topright",legend=unique(ct),fill=unique(colorList[[1]]),horiz=FALSE )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	230
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	231 res[[tk]] = list(consensusMatrix=c,consensusTree=hc,consensusClass=ct,ml=ml[[tk]],clrs=colorList)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	232 colorM = rbind(colorM,colorList[[1]])
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	233 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	234 CDF(ml)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	235 clusterTrackingPlot(colorM[,res[[length(res)]]$consensusTree$order])
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	236 if(is.null(plot)==FALSE){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	237 dev.off();
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	238 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	239 res[[1]] = colorM
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	240 if(writeTable){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	241 for(i in 2:length(res)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	242 write.csv(file=paste(title,"/",title,".k=",i,".consensusMatrix.csv",sep=""), res[[i]]$consensusMatrix)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	243 write.table(file=paste(title,"/",title,".k=",i,".consensusClass.csv",sep=""), res[[i]]$consensusClass,col.names = F,sep=",")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	244 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	245 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	246 return(res)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	247 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	248
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	249
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	250 calcICL = function(res,title="untitled_consensus_cluster",plot=NULL,writeTable=FALSE){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	251 #calculates and plots cluster consensus and item consensus
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	252 cc=rbind()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	253 cci = rbind()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	254 sumRes=list()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	255 colorsArr=c()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	256
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	257 #make results directory
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	258 if((is.null(plot)==FALSE \| writeTable) & !file.exists(paste(title,sep=""))){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	259 dir.create(paste(title,sep=""))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	260 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	261 if(is.null(plot)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	262 #to screen
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	263 }else if(plot=="pdf"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	264 pdf(onefile=TRUE, paste(title,"/","icl.pdf",sep=""))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	265 }else if(plot=="ps"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	266 postscript(onefile=TRUE, paste(title,"/","icl.ps",sep=""))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	267 }else if (plot=="png"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	268 png(paste(title,"/","icl%03d.png",sep=""))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	269 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	270
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	271 par(mfrow=c(3,1),mar=c(4,3,2,0))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	272
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	273 for (k in 2:length(res)){ #each k
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	274 eiCols = c();
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	275 o = res[[k]]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	276 m = o$consensusMatrix
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	277 m = triangle(m,mode=2)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	278 for (ci in sort(unique(o$consensusClass))){ #each cluster in k
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	279 items = which(o$consensusClass==ci)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	280 nk = length(items)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	281 mk = sum( m[items,items], na.rm=T)/((nk*(nk-1))/2)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	282 cc=rbind(cc,c(k,ci,mk)) #cluster-consensus
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	283
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	284 for (ei in rev(res[[2]]$consensusTree$order) ){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	285 denom = if (ei %in% items) { nk - 1} else { nk }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	286 mei = sum( c(m[ei,items],m[items,ei]), na.rm=T)/denom # mean item consensus to a cluster.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	287 cci = rbind(cci,c(k,ci,ei,mei)) #cluster, cluster index, item index, item-consensus
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	288 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	289 eiCols = c(eiCols, rep(ci,length(o$consensusClass)) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	290 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	291
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	292 cck = cci[which(cci[,1]==k),] #only plot the new k data.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	293
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	294 #group by item, order by cluster i
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	295 w=lapply(split(cck,cck[,3]), function(x) { y=matrix(unlist(x),ncol=4); y[order(y[,2]),4] })
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	296 q = matrix(as.numeric(unlist(w)),ncol=length(w),byrow=F)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	297 q = q[,res[[2]]$consensusTree$order] #order by leave order of k=2
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	298 #q is a matrix of k rows and sample columns, values are item consensus of sample to the cluster.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	299
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	300 thisColors = unique(cbind(res[[k]]$consensusClass,res[[k]]$clrs[[1]]))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	301 thisColors=thisColors[order(as.numeric(thisColors[,1])),2]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	302 colorsArr=c(colorsArr,thisColors)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	303 sumRes[[k]] = rankedBarPlot(q,thisColors,cc=res[[k]]$consensusClass[res[[2]]$consensusTree$order],paste("k=",k,sep="") )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	304 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	305
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	306 ys=cs=lab=c()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	307 lastk=cc[1,1]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	308 for(i in 1:length(colorsArr)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	309 if(lastk != cc[i,1]){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	310 ys=c(ys,0,0)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	311 cs=c(cs,NA,NA)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	312 lastk=cc[i,1]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	313 lab=c(lab,NA,NA)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	314 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	315 ys=c(ys,cc[i,3])
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	316 cs=c(cs,colorsArr[i])
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	317 lab=c(lab,cc[i,1])
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	318 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	319 names(ys) = lab
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	320 par(mfrow=c(3,1),mar=c(4,3,2,0))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	321 barplot(ys,col=cs,border=cs,main="cluster-consensus",ylim=c(0,1),las=1)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	322 if(is.null(plot)==FALSE){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	323 dev.off()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	324 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	325 colnames(cc) = c("k","cluster","clusterConsensus")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	326 colnames(cci) = c("k","cluster","item","itemConsensus")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	327 cci[,"item"] = names(res[[2]]$consensusClass)[ cci[,"item"] ]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	328 #type cci
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	329 cci = data.frame( k=as.numeric(cci[,"k"]), cluster=as.numeric(cci[,"cluster"]), item=cci[,"item"], itemConsensus=as.numeric(cci[,"itemConsensus"]))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	330
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	331 #write to file.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	332 if(writeTable){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	333 write.csv(file=paste(title,"/",title,".summary.cluster.consensus.csv",sep=""),row.names=F, cc)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	334 write.csv(file=paste(title,"/",title,".summary.item.consensus.csv",sep=""), row.names=F, cc)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	335 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	336 return(list(clusterConsensus=cc,itemConsensus=cci))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	337 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	338
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	339
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	340 ccRun <- function( d=d,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	341 maxK=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	342 repCount=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	343 diss=inherits( d, "dist" ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	344 pItem=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	345 pFeature=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	346 innerLinkage=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	347 distance=ifelse( inherits(d,"dist"), attr( d, "method" ), "euclidean" ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	348 clusterAlg=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	349 weightsItem=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	350 weightsFeature=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	351 verbose=NULL) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	352 m = vector(mode='list', repCount)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	353 ml = vector(mode="list",maxK)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	354 n <- ifelse( diss, ncol( as.matrix(d) ), ncol(d) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	355 mCount = mConsist = matrix(c(0),ncol=n,nrow=n)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	356 ml[[1]] = c(0);
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	357
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	358 if (is.null( distance ) ) distance <- 'euclidean' ## necessary if d is a dist object and attr( d, "method" ) == NULLa
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	359
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	360 require( amap )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	361 ## we're going to use the amap Dist function, but they misname their correlation
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	362 ## functions, so re-name them correctly
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	363 amap.distance <- c( "euclidean", "maximum", "manhattan", "canberra", "binary",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	364 "pearson", "abspearson", "correlation", "abscorrelation", "spearman", "kendall" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	365 names( amap.distance ) <- c( "euclidean", "maximum", "manhattan", "canberra", "binary",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	366 "cosine", "abscosine", "pearson", "abspearson", "spearman", "kendall" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	367 main.dist.obj <- NULL
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	368 ##browser()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	369 if ( diss ){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	370 main.dist.obj <- d
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	371
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	372 ## reset the pFeature & weightsFeature params if they've been set (irrelevant if d is a dist matrix)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	373 if ( ( !is.null(pFeature) ) &&
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	374 ( pFeature < 1 ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	375 if (verbose) warning( "user-supplied data is a distance matrix; ignoring user-specified pFeature parameter\n" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	376 pFeature <- 1 # set it to 1 to avoid problems with sampleCols
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	377 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	378 if ( ! is.null( weightsFeature ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	379 if (verbose) warning( "user-supplied data is a distance matrix; ignoring user-specified weightsFeature parameter\n" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	380 weightsFeature <- NULL # set it to NULL to avoid problems with sampleCols
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	381 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	382 } else { ## d is a data matrix
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	383 ## we're not sampling over the features
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	384 if ( ( clusterAlg != "km" ) &&
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	385 ( is.null( pFeature ) \|\|
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	386 ( ( pFeature == 1 ) && is.null( weightsFeature ) ) ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	387 ## only generate a main.dist.object IFF 1) d is a matrix, 2) we're not sampling the features, and 3) the algorithm isn't 'km'
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	388 if ( inherits( distance, "character" ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	389 if ( ! distance %in% names( amap.distance ) ) stop("unsupported distance.")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	390
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	391 main.dist.obj <- Dist( t(d), method=as.character( amap.distance[ distance ] ) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	392 ## now fix dumb amap naming convention for distance metrics
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	393 attr( main.dist.obj, "method" ) <- as.character( amap.distance[ distance ] )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	394 } else stop("unsupported distance specified.")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	395 } else {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	396 ## pFeature < 1 or a weightsFeature != NULL
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	397 ## since d is a data matrix, the user wants to sample over the gene features, so main.dist.obj is left as NULL
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	398 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	399 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	400
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	401
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	402 for (i in 1:repCount){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	403 ##browser()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	404 if(verbose){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	405 message(paste("random subsample",i));
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	406 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	407 ## take expression matrix sample, samples and genes
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	408 sample_x = sampleCols( d, pItem, pFeature, weightsItem, weightsFeature )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	409
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	410 this_dist = NA
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	411 if ( ! is.null( main.dist.obj ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	412 boot.cols <- sample_x$subcols
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	413 this_dist <- as.matrix( main.dist.obj )[ boot.cols, boot.cols ]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	414 if ( clusterAlg != "km" ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	415 ## if this isn't kmeans, then convert to a distance object
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	416 this_dist <- as.dist( this_dist )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	417 attr( this_dist, "method" ) <- attr( main.dist.obj, "method" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	418 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	419 } else {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	420 ## if main.dist.obj is NULL, then d is a data matrix, and either:
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	421 ## 1) clusterAlg is 'km'
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	422 ## 2) pFeatures < 1 or weightsFeatures have been specified, or
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	423 ## 3) both
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	424 ## so we can't use a main distance object and for every iteration, we will have to re-calculate either
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	425 ## 1) the distance matrix (because we're also sampling the features as well), or
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	426 ## 2) the submat (if using km)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	427
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	428 if ( clusterAlg != "km" ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	429 if ( ! distance %in% names( amap.distance ) ) stop("unsupported distance.")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	430 ## good, we have a supported distance type
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	431 this_dist <- Dist( t( sample_x$submat ), method=as.character( amap.distance[ distance ] ) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	432 ## now fix dumb amap naming convention for distance metrics
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	433 attr( this_dist, "method" ) <- as.character( amap.distance[ distance ] )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	434 } else {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	435 ##browser()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	436 ##clusterAlg == "km"
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	437 ## if we're not sampling the features, then grab the colslice
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	438 if ( is.null( pFeature ) \|\|
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	439 ( ( pFeature == 1 ) && is.null( weightsFeature ) ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	440 this_dist <- d[, sample_x$subcols ]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	441 } else {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	442 if ( is.na( sample_x$submat ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	443 save( "ccrun.submat.eq.na.dbg.rda" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	444 stop( "Houston, we have a problem. sample_x$submat is NA in ccRun when it should be specified - saving state\n" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	445 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	446
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	447 this_dist <- sample_x$submat
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	448 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	449 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	450 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	451
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	452 ## cluster samples for HC.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	453 this_cluster=NA
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	454 if(clusterAlg=="hc"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	455 this_cluster = hclust( this_dist, method=innerLinkage)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	456 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	457 ##browser()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	458 ##mCount is possible number of times that two sample occur in same random sample, independent of k
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	459 ##mCount stores number of times a sample pair was sampled together.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	460 mCount <- connectivityMatrix( rep( 1,length(sample_x[[3]])),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	461 mCount,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	462 sample_x[[3]] )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	463
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	464 ##use samples for each k
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	465 for (k in 2:maxK){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	466 if(verbose){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	467 message(paste(" k =",k))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	468 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	469 if (i==1){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	470 ml[[k]] = mConsist #initialize
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	471 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	472 this_assignment=NA
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	473 if(clusterAlg=="hc"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	474 ##prune to k for hc
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	475 this_assignment = cutree(this_cluster,k)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	476 ##browser()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	477 }else if(clusterAlg=="km"){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	478 ##this_dist should now be a matrix corresponding to the result from sampleCols
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	479 this_assignment <- kmeans( t( this_dist ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	480 k,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	481 iter.max = 10,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	482 nstart = 1,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	483 algorithm = c("Hartigan-Wong") )$cluster
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	484 }else if ( clusterAlg == "pam" ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	485 require( cluster )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	486 this_assignment <- pam( x=this_dist,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	487 k,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	488 diss=TRUE,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	489 metric=distance,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	490 cluster.only=TRUE )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	491 } else{
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	492 ##optional cluterArg Hook.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	493 this_assignment <- get(clusterAlg)(this_dist, k)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	494 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	495 ##add to tally
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	496 ml[[k]] <- connectivityMatrix( this_assignment,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	497 ml[[k]],
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	498 sample_x[[3]] )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	499 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	500 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	501
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	502
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	503 ##consensus fraction
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	504 res = vector(mode="list",maxK)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	505 for (k in 2:maxK){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	506 ##fill in other half of matrix for tally and count.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	507 tmp = triangle(ml[[k]],mode=3)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	508 tmpCount = triangle(mCount,mode=3)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	509 res[[k]] = tmp / tmpCount
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	510 res[[k]][which(tmpCount==0)] = 0
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	511 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	512 message("end fraction")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	513 return(res)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	514 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	515
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	516
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	517 connectivityMatrix <- function( clusterAssignments, m, sampleKey){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	518 ##input: named vector of cluster assignments, matrix to add connectivities
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	519 ##output: connectivity matrix
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	520 names( clusterAssignments ) <- sampleKey
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	521 cls <- lapply( unique( clusterAssignments ), function(i) as.numeric( names( clusterAssignments[ clusterAssignments %in% i ] ) ) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	522
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	523 for ( i in 1:length( cls ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	524 nelts <- 1:ncol( m )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	525 cl <- as.numeric( nelts %in% cls[[i]] ) ## produces a binary vector
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	526 updt <- outer( cl, cl )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	527 m <- m + updt
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	528 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	529 return(m)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	530 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	531
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	532 ## returns a list with the sample columns, as well as the sub-matrix & sample features (if necessary)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	533 ## if no sampling over the features is performed, the submatrix & sample features are returned as NAs
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	534 ## to reduce memory overhead
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	535 sampleCols <- function( d,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	536 pSamp=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	537 pRow=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	538 weightsItem=NULL,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	539 weightsFeature=NULL ){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	540 space <- ifelse( inherits( d, "dist" ), ncol( as.matrix(d) ), ncol(d) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	541 sampleN <- floor(space*pSamp)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	542 sampCols <- sort( sample(space, sampleN, replace = FALSE, prob = weightsItem) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	543
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	544 this_sample <- sampRows <- NA
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	545 if ( inherits( d, "matrix" ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	546 if ( (! is.null( pRow ) ) &&
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	547 ( (pRow < 1 ) \|\| (! is.null( weightsFeature ) ) ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	548 ## only sample the rows and generate a sub-matrix if we're sampling over the row/gene/features
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	549 space = nrow(d)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	550 sampleN = floor(space*pRow)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	551 sampRows = sort( sample(space, sampleN, replace = FALSE, prob = weightsFeature) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	552 this_sample <- d[sampRows,sampCols]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	553 dimnames(this_sample) <- NULL
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	554 } else {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	555 ## do nothing
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	556 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	557 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	558 return( list( submat=this_sample,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	559 subrows=sampRows,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	560 subcols=sampCols ) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	561 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	562
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	563 CDF=function(ml,breaks=100){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	564 #plot CDF distribution
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	565 plot(c(0),xlim=c(0,1),ylim=c(0,1),col="white",bg="white",xlab="consensus index",ylab="CDF",main="consensus CDF", las=2)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	566 k=length(ml)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	567 this_colors = rainbow(k-1)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	568 areaK = c()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	569 for (i in 2:length(ml)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	570 v=triangle(ml[[i]],mode=1)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	571
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	572 #empirical CDF distribution. default number of breaks is 100
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	573 h = hist(v, plot=FALSE, breaks=seq(0,1,by=1/breaks))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	574 h$counts = cumsum(h$counts)/sum(h$counts)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	575
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	576 #calculate area under CDF curve, by histogram method.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	577 thisArea=0
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	578 for (bi in 1:(length(h$breaks)-1)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	579 thisArea = thisArea + h$counts[bi]*(h$breaks[bi+1]-h$breaks[bi]) #increment by height by width
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	580 bi = bi + 1
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	581 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	582 areaK = c(areaK,thisArea)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	583 lines(h$mids,h$counts,col=this_colors[i-1],lwd=2,type='l')
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	584 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	585 legend(0.8,0.5,legend=paste(rep("",k-1),seq(2,k,by=1),sep=""),fill=this_colors)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	586
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	587 #plot area under CDF change.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	588 deltaK=areaK[1] #initial auc at k=2
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	589 for(i in 2:(length(areaK))){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	590 #proportional increase relative to prior K.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	591 deltaK = c(deltaK,( areaK[i] - areaK[i-1])/areaK[i-1])
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	592 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	593 plot(1+(1:length(deltaK)),y=deltaK,xlab="k",ylab="relative change in area under CDF curve",main="Delta area",type="b")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	594 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	595
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	596
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	597 myPal = function(n=10){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	598 #returns n colors
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	599 seq = rev(seq(0,255,by=255/(n)))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	600 palRGB = cbind(seq,seq,255)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	601 rgb(palRGB,maxColorValue=255)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	602 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	603
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	604 setClusterColors = function(past_ct,ct,colorU,colorList){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	605 #description: sets common color of clusters between different K
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	606 newColors = c()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	607 if(length(colorList)==0){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	608 #k==2
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	609 newColors = colorU[ct]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	610 colori=2
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	611 }else{
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	612 newColors = rep(NULL,length(ct))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	613 colori = colorList[[2]]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	614 mo=table(past_ct,ct)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	615 m=mo/apply(mo,1,sum)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	616 for(tci in 1:ncol(m)){ # for each cluster
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	617 maxC = max(m[,tci])
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	618 pci = which(m[,tci] == maxC)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	619 if( sum(m[,tci]==maxC)==1 & max(m[pci,])==maxC & sum(m[pci,]==maxC)==1 ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	620 #if new column maximum is unique, same cell is row maximum and is also unique
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	621 ##Note: the greatest of the prior clusters' members are the greatest in a current cluster's members.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	622 newColors[which(ct==tci)] = unique(colorList[[1]][which(past_ct==pci)]) # one value
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	623 }else{ #add new color.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	624 colori=colori+1
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	625 newColors[which(ct==tci)] = colorU[colori]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	626 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	627 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	628 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	629 return(list(newColors,colori,unique(newColors) ))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	630 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	631
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	632 clusterTrackingPlot = function(m){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	633 #description: plots cluster tracking plot
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	634 #input: m - matrix where rows are k, columns are samples, and values are cluster assignments.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	635 plot(NULL,xlim=c(-0.1,1),ylim=c(0,1),axes=FALSE,xlab="samples",ylab="k",main="tracking plot")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	636 for(i in 1:nrow(m)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	637 rect( xleft=seq(0,1-1/ncol(m),by=1/ncol(m)), ybottom=rep(1-i/nrow(m),ncol(m)) , xright=seq(1/ncol(m),1,by=1/ncol(m)), ytop=rep(1-(i-1)/nrow(m),ncol(m)), col=m[i,],border=NA)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	638 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	639 #hatch lines to indicate samples
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	640 xl = seq(0,1-1/ncol(m),by=1/ncol(m))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	641 segments( xl, rep(-0.1,ncol(m)) , xl, rep(0,ncol(m)), col="black") #** alt white and black color?
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	642 ypos = seq(1,0,by=-1/nrow(m))-1/(2*nrow(m))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	643 text(x=-0.1,y=ypos[-length(ypos)],labels=seq(2,nrow(m)+1,by=1))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	644 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	645
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	646 triangle = function(m,mode=1){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	647 #mode=1 for CDF, vector of lower triangle.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	648 #mode==3 for full matrix.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	649 #mode==2 for calcICL; nonredundant half matrix coun
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	650 #mode!=1 for summary
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	651 n=dim(m)[1]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	652 nm = matrix(0,ncol=n,nrow=n)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	653 fm = m
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	654
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	655
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	656 nm[upper.tri(nm)] = m[upper.tri(m)] #only upper half
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	657
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	658 fm = t(nm)+nm
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	659 diag(fm) = diag(m)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	660
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	661 nm=fm
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	662 nm[upper.tri(nm)] = NA
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	663 diag(nm) = NA
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	664 vm = m[lower.tri(nm)]
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	665
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	666 if(mode==1){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	667 return(vm) #vector
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	668 }else if(mode==3){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	669 return(fm) #return full matrix
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	670 }else if(mode == 2){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	671 return(nm) #returns lower triangle and no diagonal. no double counts.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	672 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	673
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	674 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	675
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	676
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	677 rankedBarPlot=function(d,myc,cc,title){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	678 colors = rbind() #each row is a barplot series
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	679 byRank = cbind()
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	680
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	681 spaceh = 0.1 #space between bars
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	682 for(i in 1:ncol(d)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	683 byRank = cbind(byRank,sort(d[,i],na.last=F))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	684 colors = rbind(colors,order(d[,i],na.last=F))
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	685 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	686 maxH = max(c(1.5,apply(byRank,2,sum)),na.rm=T) #maximum height of graph
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	687
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	688 #barplot largest to smallest so that smallest is in front.
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	689 barp = barplot( apply(byRank,2,sum) , col=myc[colors[,1]] ,space=spaceh,ylim=c(0,maxH),main=paste("item-consensus", title),border=NA,las=1 )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	690 for(i in 2:nrow(byRank)){
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	691 barplot( apply(matrix(byRank[i:nrow(byRank),],ncol=ncol(byRank)) ,2,sum), space=spaceh,col=myc[colors[,i]],ylim=c(0,maxH), add=T,border=NA,las=1 )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	692 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	693 xr=seq(spaceh,ncol(d)+ncol(d)spaceh,(ncol(d)+ncol(d)spaceh)/ncol(d) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	694 #class labels as asterisks
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	695 text("*",x=xr+0.5,y=maxH,col=myc[cc],cex=1.4) #rect(xr,1.4,xr+1,1.5,col=myc[cc] )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	696 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	697
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	698
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	699
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	700 ###################################################################3333
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	701 ## RESTART MY SCRIPTS HERE
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	702
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	703 spec <- matrix( c( "data.fname", "d", 1, "character",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	704 "direction", "n", 2, "character",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	705 "output.name", "o", 2, "character",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	706 "cluster.alg", "a", 2, "character",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	707 "distance.metric", "m", 2, "character",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	708 "max.k", "k", 2, "integer",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	709 "reps", "r", 2, "integer",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	710 "innerLinkage", "i", 1, "character",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	711 "finalLinkage", "f", 1, "character",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	712 "out.report.dir", "p", 2, "character",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	713 "out.report.html", "h", 2, "character"
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	714 ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	715 nc=4,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	716 byrow=TRUE
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	717 )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	718
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	719 opt <- getopt( spec=spec )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	720
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	721 ## default params for non-required params
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	722 if ( is.null( opt$direction ) ) { opt$direction <- "cols" }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	723 if ( is.null( opt$cluster.alg ) ) { opt$cluster.alg <- "pam" }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	724 if ( is.null( opt$output.name ) ) { opt$output.name <- "consensus.cluster.result" }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	725 if ( is.null( opt$distance.metric ) ) { opt$distance.metric <- "cosine" }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	726 if ( is.null( opt$max.k ) ) { opt$max.k <- 10 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	727 if ( is.null( opt$reps ) ) { opt$reps <- 1000 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	728 if ( is.null( opt$innerLinkage ) ) { opt$innerLinkage <- "average" }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	729 if ( is.null( opt$finalLinkage ) ) { opt$finalLinkage <- "average" }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	730
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	731 if ( is.null( opt$out.report.dir ) ) { opt$out.report.dir <- "report" }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	732 if ( is.null( opt$out.report.html ) ) { opt$out.report.html <- file.path( "report", "index.html" ) }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	733
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	734 ## validate params here (make sure set to valid values)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	735 if ( !opt$cluster.alg %in% c( "hc", "km", "pam" ) ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	736 stop( "invalid clustering algorithm specified", cluster.alg )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	737 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	738
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	739
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	740 data <- as.matrix( read.delim( opt$data.fname, header=T, row.names=1 , check.names=FALSE ) )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	741 ## transpose the matrix if we want to cluster the rows (genes)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	742 if ( opt$direction == "rows" ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	743 data <- t( data )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	744 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	745
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	746 title <- paste( opt$cluster.alg, opt$output.name, sep="." )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	747 results <- ConsensusClusterPlus( data,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	748 maxK=opt$max.k,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	749 reps=opt$reps,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	750 pItem=0.8,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	751 pFeature=1,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	752 title=opt$out.report.dir,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	753 clusterAlg=opt$cluster.alg,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	754 distance=opt$distance.metric,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	755 innerLinkage=opt$innerLinkage,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	756 finalLinkage=opt$finalLinkage,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	757 plot='png',
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	758 writeTable=FALSE,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	759 seed=100,
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	760 ##weightsFeature=abs( rnorm( nrow( orig.data ) ) ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	761 verbose=FALSE )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	762
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	763 pngs = list.files(path=opt$out.report.dir, patt="png")
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	764 html.out <- paste( "<html>",
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	765 paste( paste( "<div><img src=\'", pngs, sep="" ), "\'/></div>", sep="" ),
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	766 "</html>" )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	767 cat( html.out, file=opt$out.report.html )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	768
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	769
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	770 ## re-transpose the matrix back if we've clustered the rows (genes)
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	771 if ( opt$direction == "rows" ) {
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	772 data <- t( data )
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	773 }
0decf3fd54bc Uploaded peter-waltman parents: diff changeset	774 save( file=opt$output.name, data, results)

Mercurial > repos > peter-waltman > ucsc_cluster_tools2

annotate cluster.tools/consensus.clustering.R @ 5:cbc3ecce98ee draft