batchcorrection: BC/batch_correction

annotate BC/batch_correction_wrapper.R @ 3:2e3a23dd6c24 draft default tip

Uploaded

author	melpetera
date	Thu, 28 Feb 2019 05:12:34 -0500
parents
children

rev	line source
3 2e3a23dd6c24 Uploaded melpetera parents: diff changeset	1 #!/usr/bin/env Rscript
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	2
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	3 ################################################################################################
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	4 # batch_correction_wrapper #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	5 # #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	6 # Author: Marion LANDI / Jean-Francois MARTIN / Melanie Petera #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	7 # User: Galaxy #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	8 # Original data: -- #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	9 # Starting date: 22-07-2014 #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	10 # Version 1: 22-07-2014 #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	11 # Version 2: 08-12-2014 #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	12 # Version 2.1: 09-01-2015 modification in Error message of sample matching #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	13 # Version 2.2: 16-03-2015 inclusion of miniTools' functions for special characters #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	14 # Version 2.90: 18-08-2015 new parameter valnull #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	15 # Version 2.91: 25-08-2016 error message improvment #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	16 # #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	17 # #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	18 # Input files: dataMatrix.txt ; sampleMetadata.txt ; variableMetadata.txt (for DBC) #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	19 # Output files: graph_output.pdf ; corrected table ; diagnostic table #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	20 # #
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	21 ################################################################################################
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	22
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	23
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	24 library(batch) #necessary for parseCommandArgs function
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	25
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	26 ##------------------------------
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	27 ## test help option
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	28 ##------------------------------
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	29
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	30 # Prog. constants
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	31 argv.help <- commandArgs(trailingOnly = FALSE)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	32 script.path <- sub("--file=", "", argv.help[grep("--file=", argv.help)])
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	33 prog.name <- basename(script.path)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	34
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	35 # Test Help
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	36 if (length(grep('-h', argv.help)) > 0) {
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	37 cat("Usage: Rscript ",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	38 prog.name,
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	39 "{args} \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	40 "parameters: \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	41 "\tanalyse {val}: must be set to \"batch_correction\"",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	42 "\tdataMatrix {file}: set the input data matrix file (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	43 "\tsampleMetadata {file}: set the input sample metadata file (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	44 "\tvariableMetadata {file}: set the input variable metadata file (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	45 "\tmethod {opt}: set the method; can set to \"linear\", \"lowess\" or \"loess\" (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	46 "\tspan {condition}: set the span condition; set to \"none\" if method is set to \"linear\" (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	47 "\tref_factor {value}: set the ref_factor value; (if span value is set to NULL, optional) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	48 "\tdetail {value}: set the detail value; (if span value is set to NULL, optional) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	49 "\tdataMatrix_out {file}: set the output data matrix file (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	50 "\tvariableMetadata_out {file}: set the output variable metadata file (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	51 "\tgraph_output {file}: set the output graph file (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	52 "\trdata_output {file}: set the output Rdata file (mandatory) \n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	53 "\tbatch_col_name {val}: the column name for batch. Default value is \"batch\".\n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	54 "\tinjection_order_col_name {val}: the column name for the injection order. Default value is \"injectionOrder\".\n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	55 "\tsample_type_col_name {val}: the column name for the sample types. Default value is \"sampleType\".\n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	56 "\tsample_type_tags {val}: the tags used inside the sample type column, defined as key/value pairs separated by commas (example: blank=blank,pool=pool,sample=sample).\n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	57 "\n")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	58 quit(status = 0)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	59 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	60
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	61 ##------------------------------
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	62 ## init. params
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	63 ##------------------------------
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	64
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	65 args = parseCommandArgs(evaluate=FALSE) #interpretation of arguments given in command line as an R list of objects
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	66
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	67 # Set default col names
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	68 if ( ! 'batch_col_name' %in% names(args))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	69 args[['batch_col_name']] <- 'batch'
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	70 if ( ! 'injection_order_col_name' %in% names(args))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	71 args[['injection_order_col_name']] <- 'injectionOrder'
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	72 if ( ! 'sample_type_col_name' %in% names(args))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	73 args[['sample_type_col_name']] <- 'sampleType'
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	74 if ( ! 'sample_type_tags' %in% names(args))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	75 args[['sample_type_tags']] <- 'blank=blank,pool=pool,sample=sample'
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	76
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	77 # Parse sample type tags
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	78 sample.type.tags <- list()
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	79 for (kv in strsplit(strsplit(args$sample_type_tags, ',')[[1]], '='))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	80 sample.type.tags[[kv[[1]]]] <- kv[[2]]
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	81 if ( ! all(c('pool', 'blank', 'sample') %in% names(sample.type.tags)))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	82 stop("All tags pool, blank and sample must be defined in option sampleTypeTags.")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	83 args$sample_type_tags <- sample.type.tags
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	84
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	85 ##------------------------------
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	86 ## init. functions
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	87 ##------------------------------
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	88
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	89 source_local <- function(...){
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	90 argv <- commandArgs(trailingOnly = FALSE)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	91 base_dir <- dirname(substring(argv[grep("--file=", argv)], 8))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	92 for(i in 1:length(list(...))){source(paste(base_dir, list(...)[[i]], sep="/"))}
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	93 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	94 #Import the different functions
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	95 source_local("Normalisation_QCpool.r","easyrlibrary-lib/RcheckLibrary.R","easyrlibrary-lib/miniTools.R")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	96
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	97
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	98 ## Reading of input files
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	99 idsample=read.table(args$sampleMetadata,header=T,sep='\t',check.names=FALSE,comment.char = '')
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	100 iddata=read.table(args$dataMatrix,header=T,sep='\t',check.names=FALSE,comment.char = '')
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	101
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	102 ### Table match check
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	103 table.check <- match2(iddata,idsample,"sample")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	104 if(length(table.check)>1){check.err(table.check)}
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	105
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	106 ### StockID
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	107 samp.id <- stockID(iddata,idsample,"sample")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	108 iddata<-samp.id$dataMatrix ; idsample<-samp.id$Metadata ; samp.id<-samp.id$id.match
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	109
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	110 ### Checking mandatory variables
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	111 mand.check <- ""
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	112 for(mandcol in c(args$sample_type_col_name, args$injection_order_col_name, args$batch_col_name)){
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	113 if(!(mandcol%in%colnames(idsample))){
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	114 mand.check <- c(mand.check,"\nError: no '",mandcol,"' column in sample metadata.\n",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	115 "Note: table must include this exact column name (it is case-sensitive).\n")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	116 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	117 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	118 if(length(mand.check)>1){
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	119 mand.check <- c(mand.check,"\nFor more information, see the help section or:",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	120 "\n http://workflow4metabolomics.org/sites/",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	121 "workflow4metabolomics.org/files/files/w4e-2016-data_processing.pdf\n")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	122 check.err(mand.check)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	123 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	124
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	125 ### Formating
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	126 idsample[[1]]=make.names(idsample[[1]])
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	127 dimnames(iddata)[[1]]=iddata[[1]]
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	128
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	129 ### Transposition of ions data
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	130 idTdata=t(iddata[,2:dim(iddata)[2]])
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	131 idTdata=data.frame(dimnames(idTdata)[[1]],idTdata)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	132
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	133 ### Merge of 2 files (ok even if the two dataframe are not sorted on the same key)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	134 id=merge(idsample, idTdata, by.x=1, by.y=1)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	135
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	136 id[[args$batch_col_name]]=as.factor(id[[args$batch_col_name]])
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	137 ids=id[id[[args$sample_type_col_name]] == args$sample_type_tags$pool \| id[[args$sample_type_col_name]] == args$sample_type_tags$sample,]
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	138 nbid=dim(idsample)[2]
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	139
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	140 ### Checking the number of sample and pool
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	141
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	142 # least 2 samples
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	143 if(length(which(ids[[args$sample_type_col_name]] == args$sample_type_tags$sample))<2){
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	144 table.check <- c(table.check,"\nError: less than 2 samples specified in sample metadata.",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	145 "\nMake sure this is not due to errors in sampleType coding.\n")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	146 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	147
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	148 # least 2 pools per batch for all batchs
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	149 B <- rep(0,length(levels(ids[[args$batch_col_name]])))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	150 for(nbB in length(levels(ids[[args$batch_col_name]]))){
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	151 B[nbB]<-length(which(ids[which(ids[[args$batch_col_name]]==(levels(ids[[args$batch_col_name]])[nbB])),][[args$sample_type_col_name]] == args$sample_type_tags$pool))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	152 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	153 if(length(which(B>1))==0){
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	154 table.check <- c(table.check,"\nError: less than 2 pools specified in each batch in sample metadata.",
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	155 "\nMake sure this is not due to errors in sampleType coding.\n")
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	156 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	157
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	158 ### Factor of interest
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	159 factbio=args$ref_factor
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	160
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	161
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	162 if(args$analyse == "batch_correction") {
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	163 ## Reading of Metadata Ions file
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	164 metaion=read.table(args$variableMetadata,header=T,sep='\t',check.names=FALSE,comment.char = '')
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	165 ## Table match check
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	166 table.check <- c(table.check,match2(iddata,metaion,"variable"))
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	167 check.err(table.check)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	168
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	169 ## variables
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	170 detail=args$detail
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	171 method=args$method
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	172
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	173 ## outputs
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	174 outlog=args$graph_output
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	175
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	176 ## Launch
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	177 res = norm_QCpool(ids,nbid,outlog,factbio,metaion,detail,F,F,method,args$span,args$valnull)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	178 save(res, file=args$rdata_output)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	179 write.table(reproduceID(res[[1]],res[[3]],"sample",samp.id)$dataMatrix, file=args$dataMatrix_out, sep = '\t', row.names=F, quote=F)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	180 write.table(res[[2]], file=args$variableMetadata_out, sep = '\t', row.names=F, quote=F)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	181 }else{
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	182 ## error check
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	183 check.err(table.check)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	184
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	185 ## outputs
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	186 out_graph_pdf=args$out_graph_pdf
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	187 out_preNormSummary=args$out_preNormSummary
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	188
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	189 ## Launch
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	190 plotsituation(ids,nbid,out_graph_pdf,out_preNormSummary,factbio,args$span)
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	191 }
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	192
2e3a23dd6c24 Uploaded melpetera parents: diff changeset	193 rm(args)

Mercurial > repos > ethevenot > batchcorrection

annotate BC/batch_correction_wrapper.R @ 3:2e3a23dd6c24 draft default tip