caret_tool2: templateLibrary.py annotate

annotate templateLibrary.py @ 9:a4f43286eef6 draft

Uploaded

author	deepakjadmin
date	Thu, 05 Jan 2017 14:13:36 -0500
parents	12fde17bdd75
children

rev	line source
6 f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1 def __template4Rnw():
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	2
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	3 template4Rnw = r'''%% Classification Modeling Script
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	4 %% Max Kuhn (max.kuhn@pfizer.com, mxkuhn@gmail.com)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	5 %% Version: 1.00
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	6 %% Created on: 2010/10/02
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	7 %%
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	8 %% This is an Sweave template for building and describing
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	9 %% classification models. It mixes R and LaTeX code. The document can
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	10 %% be processing using R's Sweave function to produce a tex file.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	11 %%
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	12 %% The inputs are:
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	13 %% - the initial data set in a data frame called 'rawData'
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	14 %% - a factor column in the data set called 'class'. this should be the
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	15 %% outcome variable
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	16 %% - all other columns in rawData should be predictor variables
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	17 %% - the type of model should be in a variable called 'modName'.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	18 %%
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	19 %% The script attempts to make some intelligent choices based on the
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	20 %% model being used. For example, if modName is "pls", the script will
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	21 %% automatically center and scale the predictor data. There are
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	22 %% situations where these choices can (and should be) changed.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	23 %%
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	24 %% There are other options that may make sense to change. For example,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	25 %% the user may want to adjust the type of resampling. To find these
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	26 %% parts of the script, search on the string 'OPTION'. These parts of
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	27 %% the code will document the options.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	28
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	29 \documentclass[14pt]{report}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	30 \usepackage{amsmath}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	31 \usepackage[pdftex]{graphicx}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	32 \usepackage{color}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	33 \usepackage{ctable}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	34 \usepackage{xspace}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	35 \usepackage{fancyvrb}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	36 \usepackage{fancyhdr}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	37 \usepackage{lastpage}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	38 \usepackage{longtable}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	39 \usepackage{algorithm2e}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	40 \usepackage[
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	41 colorlinks=true,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	42 linkcolor=blue,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	43 citecolor=blue,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	44 urlcolor=blue]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	45 {hyperref}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	46 \usepackage{lscape}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	47 \usepackage{Sweave}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	48 \SweaveOpts{keep.source = TRUE}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	49
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	50 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	51
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	52 % define new colors for use
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	53 \definecolor{darkgreen}{rgb}{0,0.6,0}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	54 \definecolor{darkred}{rgb}{0.6,0.0,0}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	55 \definecolor{lightbrown}{rgb}{1,0.9,0.8}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	56 \definecolor{brown}{rgb}{0.6,0.3,0.3}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	57 \definecolor{darkblue}{rgb}{0,0,0.8}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	58 \definecolor{darkmagenta}{rgb}{0.5,0,0.5}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	59
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	60 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	61
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	62 \newcommand{\bld}[1]{\mbox{\boldmath $$#1$$}}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	63 \newcommand{\shell}[1]{\mbox{$$#1$$}}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	64 \renewcommand{\vec}[1]{\mbox{\bf {#1}}}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	65
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	66 \newcommand{\ReallySmallSpacing}{\renewcommand{\baselinestretch}{.6}\Large\normalsize}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	67 \newcommand{\SmallSpacing}{\renewcommand{\baselinestretch}{1.1}\Large\normalsize}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	68
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	69 \newcommand{\halfs}{\frac{1}{2}}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	70
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	71 \setlength{\oddsidemargin}{-.25 truein}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	72 \setlength{\evensidemargin}{0truein}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	73 \setlength{\topmargin}{-0.2truein}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	74 \setlength{\textwidth}{7 truein}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	75 \setlength{\textheight}{8.5 truein}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	76 \setlength{\parindent}{0.20truein}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	77 \setlength{\parskip}{0.10truein}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	78
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	79 \setcounter{LTchunksize}{50}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	80
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	81 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	82 \pagestyle{fancy}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	83 \lhead{}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	84 %% OPTION Report header name
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	85 \chead{Classification Model Script}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	86 \rhead{}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	87 \lfoot{}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	88 \cfoot{}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	89 \rfoot{\thepage\ of \pageref{LastPage}}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	90 \renewcommand{\headrulewidth}{1pt}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	91 \renewcommand{\footrulewidth}{1pt}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	92 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	93
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	94 %% OPTION Report title and modeler name
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	95 \title{Classification Model Script using $METHOD}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	96 \author{"Lynn Group with M. Kuhn, SCIS, JNU, New Delhi"}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	97
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	98 \begin{document}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	99
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	100 \maketitle
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	101
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	102 \thispagestyle{empty}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	103 <<dummy, eval=TRUE, echo=FALSE, results=hide>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	104 # sets values for variables used later in the program to prevent the \Sexpr error on parsing with Sweave
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	105 numSamples=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	106 classDistString=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	107 missingText=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	108 numPredictors=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	109 numPCAcomp=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	110 pcaText=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	111 nzvText=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	112 corrText=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	113 ppText=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	114 varText=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	115 splitText="Dummy Text"
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	116 nirText="Dummy Text"
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	117 # pctTrain is a variable that is initialised in Data splitting, and reused later in testPred
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	118 pctTrain=0.8
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	119 Smpling=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	120 nzvText1=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	121 classDistString1=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	122 dwnsmpl=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	123 upsmpl=''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	124
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	125 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	126 <<startup, eval= TRUE, results = hide, echo = FALSE>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	127 library(Hmisc)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	128 library(caret)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	129 library(pROC)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	130 versionTest <- compareVersion(packageDescription("caret")$$Version,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	131 "4.65")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	132 if(versionTest < 0) stop("caret version 4.65 or later is required")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	133
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	134 library(RColorBrewer)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	135
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	136
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	137 listString <- function (x, period = FALSE, verbose = FALSE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	138 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	139 if (verbose) cat("\n entering listString\n")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	140 flush.console()
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	141 if (!is.character(x))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	142 x <- as.character(x)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	143 numElements <- length(x)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	144 out <- if (length(x) > 0) {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	145 switch(min(numElements, 3), x, paste(x, collapse = " and "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	146 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	147 x <- paste(x, c(rep(",", numElements - 2), " and", ""), sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	148 paste(x, collapse = " ")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	149 })
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	150 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	151 else ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	152 if (period) out <- paste(out, ".", sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	153 if (verbose) cat(" leaving listString\n\n")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	154 flush.console()
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	155 out
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	156 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	157
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	158 resampleStats <- function(x, digits = 3)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	159 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	160 bestPerf <- x$$bestTune
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	161 colnames(bestPerf) <- gsub("^\\.", "", colnames(bestPerf))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	162 out <- merge(x$$results, bestPerf)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	163 out <- out[, colnames(out) %in% x$$perfNames]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	164 names(out) <- gsub("ROC", "area under the ROC curve", names(out), fixed = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	165 names(out) <- gsub("Sens", "sensitivity", names(out), fixed = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	166 names(out) <- gsub("Spec", "specificity", names(out), fixed = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	167 names(out) <- gsub("Accuracy", "overall accuracy", names(out), fixed = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	168 names(out) <- gsub("Kappa", "Kappa statistics", names(out), fixed = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	169
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	170 out <- format(out, digits = digits)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	171 listString(paste(names(out), "was", out))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	172 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	173
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	174 twoClassNoProbs <- function (data, lev = NULL, model = NULL)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	175 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	176 out <- c(sensitivity(data[, "pred"], data[, "obs"], lev[1]),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	177 specificity(data[, "pred"], data[, "obs"], lev[2]),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	178 confusionMatrix(data[, "pred"], data[, "obs"])$$overall["Kappa"])
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	179
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	180 names(out) <- c("Sens", "Spec", "Kappa")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	181 out
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	182 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	183
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	184
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	185
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	186 ##OPTION: model name: see ?train for more values/models
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	187 modName <- "$METHOD"
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	188
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	189
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	190 load("$RDATA")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	191 rawData <- dataX
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	192 rawData$$outcome <- dataY
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	193
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	194 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	195
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	196
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	197 \section*{Data Sets}\label{S:data}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	198
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	199 %% OPTION: provide some background on the problem, the experimental
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	200 %% data, how the compounds were selected etc
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	201
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	202 <<getDataInfo, eval = $GETDATAINFOEVAL, echo = $GETDATAINFOECHO, results = $GETDATAINFORESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	203 if(!any(names(rawData) == "outcome")) stop("a variable called outcome should be in the data set")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	204 if(!is.factor(rawData$$outcome)) stop("the outcome should be a factor vector")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	205
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	206 ## OPTION: when there are only two classes, the first level of the
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	207 ## factor is used as the "positive" or "event" for calculating
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	208 ## sensitivity and specificity. Adjust the outcome factor accordingly.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	209 numClasses <- length(levels(rawData$$outcome))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	210 numSamples <- nrow(rawData)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	211 numPredictors <- ncol(rawData) - 1
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	212 predictorNames <- names(rawData)[names(rawData) != "outcome"]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	213
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	214 isNum <- apply(rawData[,predictorNames, drop = FALSE], 2, is.numeric)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	215 if(any(!isNum)) stop("all predictors in rawData should be numeric")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	216
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	217 classTextCheck <- all.equal(levels(rawData$$outcome), make.names(levels(rawData$$outcome)))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	218 if(!classTextCheck) warning("the class levels are not valid R variable names; this may cause errors")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	219
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	220 ## Get the class distribution
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	221 classDist <- table(rawData$$outcome)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	222 classDistString <- paste("``",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	223 names(classDist),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	224 "'' ($$n$$=",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	225 classDist,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	226 ")",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	227 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	228 classDistString <- listString(classDistString)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	229 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	230
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	231 <<missingFilter, eval = $MISSINGFILTEREVAL, echo = $MISSINGFILTERECHO, results = $MISSINGFILTERRESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	232 colRate <- apply(rawData[, predictorNames, drop = FALSE],
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	233 2, function(x) mean(is.na(x)))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	234
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	235 ##OPTION thresholds can be changed
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	236 colExclude <- colRate > $MISSINGFILTERTHRESHC
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	237
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	238 missingText <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	239
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	240 if(any(colExclude))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	241 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	242 missingText <- paste(missingText,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	243 ifelse(sum(colExclude) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	244 " There were ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	245 " There was "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	246 sum(colExclude),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	247 ifelse(sum(colExclude) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	248 " predictors ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	249 " predictor "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	250 "with an excessive number of ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	251 "missing data. ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	252 ifelse(sum(colExclude) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	253 " These were excluded. ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	254 " This was excluded. "))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	255 predictorNames <- predictorNames[!colExclude]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	256 rawData <- rawData[, names(rawData) %in% c("outcome", predictorNames), drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	257 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	258
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	259
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	260 rowRate <- apply(rawData[, predictorNames, drop = FALSE],
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	261 1, function(x) mean(is.na(x)))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	262
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	263 rowExclude <- rowRate > $MISSINGFILTERTHRESHR
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	264
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	265
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	266 if(any(rowExclude)) {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	267 missingText <- paste(missingText,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	268 ifelse(sum(rowExclude) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	269 " There were ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	270 " There was "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	271 sum(colExclude),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	272 ifelse(sum(rowExclude) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	273 " samples ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	274 " sample "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	275 "with an excessive number of ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	276 "missing data. ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	277 ifelse(sum(rowExclude) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	278 " These were excluded. ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	279 " This was excluded. "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	280 "After filtering, ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	281 sum(!rowExclude),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	282 " samples remained.")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	283 rawData <- rawData[!rowExclude, ]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	284 hasMissing <- apply(rawData[, predictorNames, drop = FALSE],
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	285 1, function(x) mean(is.na(x)))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	286 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	287 hasMissing <- apply(rawData[, predictorNames, drop = FALSE],
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	288 1, function(x) any(is.na(x)))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	289 missingText <- paste(missingText,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	290 ifelse(missingText == "",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	291 "There ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	292 "Subsequently, there "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	293 ifelse(sum(hasMissing) == 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	294 "was ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	295 "were "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	296 ifelse(sum(hasMissing) > 0,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	297 sum(hasMissing),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	298 "no"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	299 ifelse(sum(hasMissing) == 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	300 "sample ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	301 "samples "),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	302 "with missing values.")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	303
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	304 rawData <- rawData[complete.cases(rawData),]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	305
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	306 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	307
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	308 rawData1 <- rawData[,1:length(rawData)-1]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	309 rawData2 <- rawData[,length(rawData)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	310
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	311 set.seed(222)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	312 nzv1 <- nearZeroVar(rawData1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	313 if(length(nzv1) > 0)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	314 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	315 nzvVars1 <- names(rawData1)[nzv1]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	316 rawData <- rawData1[, -nzv1]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	317 rawData$outcome <- rawData2
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	318 nzvText1 <- paste("There were ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	319 length(nzv1),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	320 " predictors that were removed from original data due to",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	321 " severely unbalanced distributions that",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	322 " could negatively affect the model fit",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	323 ifelse(length(nzv1) > 10,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	324 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	325 paste(": ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	326 listString(nzvVars1),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	327 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	328 sep = "")),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	329 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	330
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	331 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	332 rawData <- rawData1
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	333 rawData$outcome <- rawData2
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	334 nzvText1 <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	335
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	336 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	337
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	338 remove("rawData1")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	339 remove("rawData2")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	340
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	341 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	342
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	343 The initial data set consisted of \Sexpr{numSamples} samples and
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	344 \Sexpr{numPredictors} predictor variables. The breakdown of the
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	345 outcome data classes were: \Sexpr{classDistString}.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	346
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	347 \Sexpr{missingText}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	348
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	349 \Sexpr{nzvText1}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	350
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	351 <<pca, eval= $PCAEVAL, echo = $PCAECHO, results = $PCARESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	352
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	353 predictorNames <- names(rawData)[names(rawData) != "outcome"]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	354 numPredictors <- length(predictorNames)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	355 predictors <- rawData[, predictorNames, drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	356 ## PCA will fail with predictors having less than 2 unique values
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	357 isZeroVar <- apply(predictors, 2,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	358 function(x) length(unique(x)) < 2)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	359 if(any(isZeroVar)) predictors <- predictors[, !isZeroVar, drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	360 ## For whatever, only the formula interface to prcomp
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	361 ## handles missing values
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	362 pcaForm <- as.formula(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	363 paste("~",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	364 paste(names(predictors), collapse = "+")))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	365 pca <- prcomp(pcaForm,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	366 data = predictors,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	367 center = TRUE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	368 scale. = TRUE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	369 na.action = na.omit)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	370 ## OPTION: the number of components plotted/discussed can be set
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	371 numPCAcomp <- $PCACOMP
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	372 pctVar <- pca$$sdev^2/sum(pca$$sdev^2)*100
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	373 pcaText <- paste(round(pctVar[1:numPCAcomp], 1),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	374 "\\\\%",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	375 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	376 pcaText <- listString(pcaText)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	377 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	378
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	379 To get an initial assessment of the separability of the classes,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	380 principal component analysis (PCA) was used to distill the
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	381 \Sexpr{numPredictors} predictors down into \Sexpr{numPCAcomp}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	382 surrogate variables (i.e. the principal components) in a manner that
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	383 attempts to maximize the amount of information preserved from the
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	384 original predictor set. Figure \ref{F:inititalPCA} contains plots of
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	385 the first \Sexpr{numPCAcomp} components, which accounted for
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	386 \Sexpr{pcaText} percent of the variability in the original predictors
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	387 (respectively).
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	388
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	389
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	390 %% OPTION: remark on how well (or poorly) the data separated
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	391
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	392 \setkeys{Gin}{width = 0.8\textwidth}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	393 \begin{figure}[p]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	394 \begin{center}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	395
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	396 <<pcaPlot, eval = $PCAPLOTEVAL, echo = $PCAPLOTECHO, results = $PCAPLOTRESULT, fig = $PCAPLOTFIG, width = 8, height = 8>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	397 trellis.par.set(caretTheme(), warn = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	398 if(numPCAcomp == 2)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	399 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	400 axisRange <- extendrange(pca$$x[, 1:2])
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	401 print(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	402 xyplot(PC1 ~ PC2,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	403 data = as.data.frame(pca$$x),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	404 type = c("p", "g"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	405 groups = rawData$$outcome,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	406 auto.key = list(columns = 2),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	407 xlim = axisRange,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	408 ylim = axisRange))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	409 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	410 axisRange <- extendrange(pca$$x[, 1:numPCAcomp])
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	411 print(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	412 splom(~as.data.frame(pca$$x)[, 1:numPCAcomp],
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	413 type = c("p", "g"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	414 groups = rawData$$outcome,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	415 auto.key = list(columns = 2),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	416 as.table = TRUE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	417 prepanel.limits = function(x) axisRange
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	418 ))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	419
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	420 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	421
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	422 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	423
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	424 \caption[PCA Plot]{A plot of the first \Sexpr{numPCAcomp}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	425 principal components for the original data set.}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	426 \label{F:inititalPCA}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	427 \end{center}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	428 \end{figure}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	429
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	430
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	431
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	432 <<initialDataSplit, eval = $INITIALDATASPLITEVAL, echo = $INITIALDATASPLITECHO, results = $INITIALDATASPLITRESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	433
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	434 ## OPTION: in small samples sizes, you may not want to set aside a
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	435 ## training set and focus on the resampling results.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	436
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	437 set.seed(1234)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	438 dataX <- rawData[,1:length(rawData)-1]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	439 dataY <- rawData[,length(rawData)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	440
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	441 Smpling <- "$SAAMPLING"
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	442
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	443 if(Smpling=="downsampling")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	444 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	445 dwnsmpl <- downSample(dataX,dataY)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	446 rawData <- dwnsmpl[,1:length(dwnsmpl)-1]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	447 rawData$outcome <- dwnsmpl[,length(dwnsmpl)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	448 remove("dwnsmpl")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	449 remove("dataX")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	450 remove("dataY")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	451 }else if(Smpling=="upsampling"){
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	452 upsmpl <- upSample(dataX,dataY)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	453 rawData <- upsmpl[,1:length(upsmpl)-1]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	454 rawData$outcome <- upsmpl[,length(upsmpl)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	455 remove("upsmpl")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	456 remove("dataX")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	457 remove("dataY")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	458 }else{remove("dataX")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	459 remove("dataY")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	460 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	461
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	462
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	463
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	464 numSamples <- nrow(rawData)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	465
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	466 predictorNames <- names(rawData)[names(rawData) != "outcome"]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	467 numPredictors <- length(predictorNames)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	468
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	469
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	470 classDist1 <- table(rawData$outcome)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	471 classDistString1 <- paste("``",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	472 names(classDist1),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	473 "'' ($n$=",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	474 classDist1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	475 ")",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	476 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	477 classDistString1 <- listString(classDistString1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	478
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	479 pctTrain <- $PERCENT
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	480
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	481 if(pctTrain < 1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	482 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	483 ## OPTION: seed number can be changed
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	484 set.seed(1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	485 inTrain <- createDataPartition(rawData$$outcome,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	486 p = pctTrain,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	487 list = FALSE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	488 trainX <- rawData[ inTrain, predictorNames]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	489 testX <- rawData[-inTrain, predictorNames]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	490 trainY <- rawData[ inTrain, "outcome"]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	491 testY <- rawData[-inTrain, "outcome"]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	492 splitText <- paste("The original data were split into ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	493 "a training set ($$n$$=",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	494 nrow(trainX),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	495 ") and a test set ($$n$$=",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	496 nrow(testX),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	497 ") in a manner that preserved the ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	498 "distribution of the classes.",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	499 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	500 isZeroVar <- apply(trainX, 2,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	501 function(x) length(unique(x)) < 2)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	502 if(any(isZeroVar))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	503 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	504 trainX <- trainX[, !isZeroVar, drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	505 testX <- testX[, !isZeroVar, drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	506 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	507
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	508 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	509 trainX <- rawData[, predictorNames]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	510 testX <- NULL
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	511 trainY <- rawData[, "outcome"]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	512 testY <- NULL
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	513 splitText <- "The entire data set was used as the training set."
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	514 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	515 trainDist <- table(trainY)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	516 nir <- max(trainDist)/length(trainY)*100
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	517 niClass <- names(trainDist)[which.max(trainDist)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	518 nirText <- paste("The non--information rate is the accuracy that can be ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	519 "achieved by predicting all samples using the most ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	520 "dominant class. For these data, the rate is ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	521 round(nir, 2), "\\\\% using the ``",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	522 niClass,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	523 "'' class.",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	524 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	525
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	526 remove("rawData")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	527
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	528 if((!is.null(testX)) && (!is.null(testY))){
7 b9ca220a8090 Uploaded deepakjadmin parents: 6 diff changeset	529 #save(trainX,trainY,testX,testY,file="datasets.RData")
6 f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	530 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	531 save(trainX,trainY,file="datasets.RData")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	532 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	533
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	534 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	535
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	536 \Sexpr{splitText}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	537
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	538 \Sexpr{nirText}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	539
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	540 The data set for model building consisted of \Sexpr{numSamples} samples and
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	541 \Sexpr{numPredictors} predictor variables. The breakdown of the
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	542 outcome data classes were: \Sexpr{classDistString1}.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	543
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	544 <<nzv, eval= $NZVEVAL, results = $NZVRESULT, echo = $NZVECHO>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	545 ## OPTION: other pre-processing steps can be used
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	546 ppSteps <- caret:::suggestions(modName)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	547
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	548 set.seed(2)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	549 if(ppSteps["nzv"])
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	550 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	551 nzv <- nearZeroVar(trainX)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	552 if(length(nzv) > 0)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	553 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	554 nzvVars <- names(trainX)[nzv]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	555 trainX <- trainX[, -nzv]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	556 nzvText <- paste("There were ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	557 length(nzv),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	558 " predictors that were removed from train set due to",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	559 " severely unbalanced distributions that",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	560 " could negatively affect the model",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	561 ifelse(length(nzv) > 10,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	562 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	563 paste(": ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	564 listString(nzvVars),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	565 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	566 sep = "")),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	567 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	568 testX <- testX[, -nzv]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	569 } else nzvText <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	570 } else nzvText <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	571 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	572
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	573 \Sexpr{nzvText}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	574
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	575
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	576 <<corrFilter, eval = $CORRFILTEREVAL, results = $CORRFILTERRESULT, echo = $CORRFILTERECHO>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	577 if(ppSteps["corr"])
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	578 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	579 ## OPTION:
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	580 corrThresh <- $THRESHHOLDCOR
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	581 highCorr <- findCorrelation(cor(trainX, use = "pairwise.complete.obs"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	582 corrThresh)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	583 if(length(highCorr) > 0)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	584 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	585 corrVars <- names(trainX)[highCorr]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	586 trainX <- trainX[, -highCorr]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	587 corrText <- paste("There were ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	588 length(highCorr),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	589 " predictors that were removed due to",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	590 " large between--predictor correlations that",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	591 " could negatively affect the model fit",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	592 ifelse(length(highCorr) > 10,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	593 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	594 paste(": ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	595 listString(highCorr),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	596 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	597 sep = "")),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	598 " Removing these predictors forced",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	599 " all pair--wise correlations to be",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	600 " less than ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	601 corrThresh,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	602 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	603 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	604 testX <- testX[, -highCorr]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	605 } else corrText <- "No correlation among data on given threshold"
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	606 }else corrText <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	607 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	608
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	609 \Sexpr{corrText}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	610
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	611 <<preProc, eval = $PREPROCEVAL, echo = $PREPROCECHO, results = $PREPROCRESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	612 ppMethods <- NULL
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	613 if(ppSteps["center"]) ppMethods <- c(ppMethods, "center")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	614 if(ppSteps["scale"]) ppMethods <- c(ppMethods, "scale")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	615 if(any(hasMissing) > 0) ppMethods <- c(ppMethods, "knnImpute")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	616 ##OPTION other methods, such as spatial sign, can be added to this list
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	617
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	618 if(length(ppMethods) > 0)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	619 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	620 ppInfo <- preProcess(trainX, method = ppMethods)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	621 trainX <- predict(ppInfo, trainX)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	622 if(pctTrain < 1) testX <- predict(ppInfo, testX)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	623 ppText <- paste("The following pre--processing methods were",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	624 " applied to the training",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	625 ifelse(pctTrain < 1, " and test", ""),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	626 " data: ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	627 listString(ppMethods),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	628 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	629 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	630 ppText <- gsub("center", "mean centering", ppText)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	631 ppText <- gsub("scale", "scaling to unit variance", ppText)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	632 ppText <- gsub("knnImpute",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	633 paste(ppInfo$$k, "--nearest neighbor imputation", sep = ""),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	634 ppText)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	635 ppText <- gsub("spatialSign", "the spatial sign transformation", ppText)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	636 ppText <- gsub("pca", "principal component feature extraction", ppText)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	637 ppText <- gsub("ica", "independent component feature extraction", ppText)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	638 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	639 ppInfo <- NULL
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	640 ppText <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	641 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	642
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	643 predictorNames <- names(trainX)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	644 if(nzvText != "" \| corrText != "" \| ppText != "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	645 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	646 varText <- paste("After pre--processing, ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	647 ncol(trainX),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	648 "predictors remained for modeling.")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	649 } else varText <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	650
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	651 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	652
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	653 \Sexpr{ppText}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	654 \Sexpr{varText}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	655
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	656 \clearpage
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	657
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	658 \section*{Model Building}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	659
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	660 <<setupWorkers, eval = TRUE, echo = $SETUPWORKERSECHO, results = $SETUPWORKERSRESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	661 numWorkers <- $NUMWORKERS
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	662 ##OPTION: turn up numWorkers to use MPI
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	663 if(numWorkers > 1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	664 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	665 mpiCalcs <- function(X, FUN, ...)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	666 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	667 theDots <- list(...)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	668 parLapply(theDots$$cl, X, FUN)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	669 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	670
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	671 library(snow)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	672 cl <- makeCluster(numWorkers, "MPI")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	673 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	674 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	675
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	676 <<setupResampling, echo = $SETUPRESAMPLINGECHO, results = $SETUPRESAMPLINGRESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	677 ##OPTION: the resampling options can be changed. See
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	678 ## ?trainControl for details
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	679
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	680 resampName <- "$RESAMPNAME"
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	681 resampNumber <- $RESAMPLENUMBER
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	682 numRepeat <- $NUMREPEAT
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	683 resampP <- $RESAMPLENUMBERPERCENT
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	684
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	685 modelInfo <- modelLookup(modName)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	686
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	687 if(numClasses == 2)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	688 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	689 foo <- if(any(modelInfo$$probModel)) twoClassSummary else twoClassNoProbs
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	690 } else foo <- defaultSummary
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	691
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	692 set.seed(3)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	693 ctlObj <- trainControl(method = resampName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	694 number = resampNumber,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	695 repeats = numRepeat,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	696 p = resampP,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	697 classProbs = any(modelInfo$$probModel),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	698 summaryFunction = foo)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	699
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	700
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	701 ##OPTION select other performance metrics as needed
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	702 optMetric <- if(numClasses == 2 & any(modelInfo$$probModel)) "ROC" else "Kappa"
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	703
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	704 if(numWorkers > 1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	705 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	706 ctlObj$$workers <- numWorkers
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	707 ctlObj$$computeFunction <- mpiCalcs
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	708 ctlObj$$computeArgs <- list(cl = cl)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	709 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	710 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	711
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	712 <<setupGrid, results = $SETUPGRIDRESULT, echo = $SETUPGRIDECHO>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	713 ##OPTION expand or contract these grids as needed (or
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	714 ## add more models
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	715
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	716 gridSize <- $SETUPGRIDSIZE
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	717
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	718 if(modName %in% c("svmPoly", "svmRadial", "svmLinear", "lvq", "ctree2", "ctree")) gridSize <- 5
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	719 if(modName %in% c("earth", "fda")) gridSize <- 7
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	720 if(modName %in% c("knn", "rocc", "glmboost", "rf", "nodeHarvest")) gridSize <- 10
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	721
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	722 if(modName %in% c("nb")) gridSize <- 2
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	723 if(modName %in% c("pam", "rpart")) gridSize <- 15
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	724 if(modName %in% c("pls")) gridSize <- min(20, ncol(trainX))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	725
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	726 if(modName == "gbm")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	727 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	728 tGrid <- expand.grid(.interaction.depth = -1 + (1:5)*2 ,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	729 .n.trees = (1:10)*20,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	730 .shrinkage = .1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	731 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	732
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	733 if(modName == "nnet")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	734 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	735 tGrid <- expand.grid(.size = -1 + (1:5)*2 ,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	736 .decay = c(0, .001, .01, .1))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	737 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	738
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	739 if(modName == "ada")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	740 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	741 tGrid <- expand.grid(.maxdepth = 1, .iter = c(100,200,300,400), .nu = 1 )
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	742
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	743 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	744
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	745
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	746 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	747
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	748 <<fitModel, results = $FITMODELRESULT, echo = $FITMODELECHO, eval = $FITMODELEVAL>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	749 ##OPTION alter as needed
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	750
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	751 set.seed(4)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	752 modelFit <- switch(modName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	753 gbm =
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	754 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	755 mix <- sample(seq(along = trainY))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	756 train(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	757 trainX[mix,], trainY[mix], modName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	758 verbose = FALSE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	759 bag.fraction = .9,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	760 metric = optMetric,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	761 trControl = ctlObj,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	762 tuneGrid = tGrid)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	763 },
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	764
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	765 multinom =
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	766 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	767 train(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	768 trainX, trainY, modName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	769 trace = FALSE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	770 metric = optMetric,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	771 maxiter = 1000,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	772 MaxNWts = 5000,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	773 trControl = ctlObj,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	774 tuneLength = gridSize)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	775 },
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	776
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	777 nnet =
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	778 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	779 train(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	780 trainX, trainY, modName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	781 metric = optMetric,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	782 linout = FALSE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	783 trace = FALSE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	784 maxiter = 1000,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	785 MaxNWts = 5000,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	786 trControl = ctlObj,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	787 tuneGrid = tGrid)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	788
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	789 },
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	790
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	791 svmRadial =, svmPoly =, svmLinear =
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	792 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	793 train(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	794 trainX, trainY, modName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	795 metric = optMetric,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	796 scaled = TRUE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	797 trControl = ctlObj,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	798 tuneLength = gridSize)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	799 },
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	800 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	801 train(trainX, trainY, modName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	802 trControl = ctlObj,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	803 metric = optMetric,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	804 tuneLength = gridSize)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	805 })
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	806
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	807 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	808
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	809 <<modelDescr, echo = $MODELDESCRECHO, results = $MODELDESCRRESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	810 summaryText <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	811
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	812 resampleName <- switch(tolower(modelFit$$control$$method),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	813 boot = paste("the bootstrap (", length(modelFit$$control$$index), " reps)", sep = ""),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	814 boot632 = paste("the bootstrap 632 rule (", length(modelFit$$control$$index), " reps)", sep = ""),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	815 cv = paste("cross-validation (", modelFit$$control$$number, " fold)", sep = ""),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	816 repeatedcv = paste("cross-validation (", modelFit$$control$$number, " fold, repeated ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	817 modelFit$$control$$repeats, " times)", sep = ""),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	818 lgocv = paste("repeated train/test splits (", length(modelFit$$control$$index), " reps, ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	819 round(modelFit$$control$$p, 2), "$$\\%$$)", sep = ""))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	820
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	821 tuneVars <- latexTranslate(tolower(modelInfo$$label))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	822 tuneVars <- gsub("\\#", "the number of ", tuneVars, fixed = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	823 if(ncol(modelFit$$bestTune) == 1 && colnames(modelFit$$bestTune) == ".parameter")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	824 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	825 summaryText <- paste(summaryText,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	826 "\n\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	827 "There are no tuning parameters associated with this model.",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	828 "To characterize the model performance on the training set,",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	829 resampleName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	830 "was used.",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	831 "Table \\\\ref{T:resamps} and Figure \\\\ref{F:profile}",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	832 "show summaries of the resampling results. ")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	833
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	834 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	835 summaryText <- paste("There",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	836 ifelse(nrow(modelInfo) > 1, "are", "is"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	837 nrow(modelInfo),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	838 ifelse(nrow(modelInfo) > 1, "tuning parameters", "tuning parameter"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	839 "associated with this model:",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	840 listString(tuneVars, period = TRUE))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	841
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	842
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	843
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	844 paramNames <- gsub(".", "", names(modelFit$$bestTune), fixed = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	845 ## (i in seq(along = paramNames))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	846 ## {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	847 ## check <- modelInfo$$parameter %in% paramNames[i]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	848 ## if(any(check))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	849 ## {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	850 ## paramNames[i] <- modelInfo$$label[which(check)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	851 ## }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	852 ## }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	853
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	854 paramNames <- gsub("#", "the number of ", paramNames, fixed = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	855 ## Check to see if there was only one combination fit
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	856 summaryText <- paste(summaryText,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	857 "To choose",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	858 ifelse(nrow(modelInfo) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	859 "appropriate values of the tuning parameters,",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	860 "an appropriate value of the tuning parameter,"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	861 resampleName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	862 "was used to generated a profile of performance across the",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	863 nrow(modelFit$$results),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	864 ifelse(nrow(modelInfo) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	865 "combinations of the tuning parameters.",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	866 "candidate values."),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	867
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	868 "Table \\\\ref{T:resamps} and Figure \\\\ref{F:profile} show",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	869 "summaries of the resampling profile. ", "The final model fitted to the entire training set was:",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	870 listString(paste(latexTranslate(tolower(paramNames)), "=", modelFit$$bestTune[1,]), period = TRUE))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	871
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	872 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	873 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	874
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	875 \Sexpr{summaryText}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	876
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	877 <<resampTable, echo = $RESAMPTABLEECHO, results = $RESAMPTABLERESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	878 tableData <- modelFit$$results
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	879
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	880 if(all(modelInfo$$parameter == "parameter") && resampName == "boot632")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	881 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	882 tableData <- tableData[,-1, drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	883 colNums <- c( length(modelFit$$perfNames), length(modelFit$$perfNames), length(modelFit$$perfNames))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	884 colLabels <- c("Mean", "Standard Deviation","Apparant")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	885 constString <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	886 isConst <- NULL
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	887 } else if (all(modelInfo$$parameter == "parameter") && (resampName == "boot" \| resampName == "cv" \| resampName == "repeatedcv" )){
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	888 tableData <- tableData[,-1, drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	889 colNums <- c(length(modelFit$$perfNames), length(modelFit$$perfNames))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	890 colLabels <- c("Mean", "Standard Deviation")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	891 constString <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	892 isConst <- NULL
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	893 } else if (all(modelInfo$$parameter == "parameter") && resampName == "LOOCV" ){
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	894 tableData <- tableData[,-1, drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	895 colNums <- length(modelFit$$perfNames)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	896 colLabels <- c("Measures")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	897 constString <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	898 isConst <- NULL
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	899 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	900 if (all(modelInfo$$parameter != "parameter") && resampName == "boot632" ){
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	901 isConst <- apply(tableData[, modelInfo$$parameter, drop = FALSE],
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	902 2,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	903 function(x) length(unique(x)) == 1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	904
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	905 numParamInTable <- sum(!isConst)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	906
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	907 if(any(isConst))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	908 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	909 constParam <- modelInfo$$parameter[isConst]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	910 constValues <- format(tableData[, constParam, drop = FALSE], digits = 4)[1,,drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	911 tableData <- tableData[, !(names(tableData) %in% constParam), drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	912 constString <- paste("The tuning",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	913 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	914 "parmeters",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	915 "parameter"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	916 listString(paste("``", names(constValues), "''", sep = "")),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	917 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	918 "were",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	919 "was"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	920 "held constant at",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	921 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	922 "a value of",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	923 "values of"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	924 listString(constValues[1,]))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	925
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	926 } else constString <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	927
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	928 cn <- colnames(tableData)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	929 ## for(i in seq(along = cn))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	930 ## {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	931 ## check <- modelInfo$$parameter %in% cn[i]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	932 ## if(any(check))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	933 ## {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	934 ## cn[i] <- modelInfo$$label[which(check)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	935 ## }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	936 ## }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	937 ## colnames(tableData) <- cn
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	938
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	939 colNums <- c(numParamInTable,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	940 length(modelFit$$perfNames),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	941 length(modelFit$$perfNames),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	942 length(modelFit$$perfNames))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	943 colLabels <- c("", "Mean", "Standard Deviation", "Apparant")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	944
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	945 }else if (all(modelInfo$$parameter != "parameter") && (resampName == "boot" \| resampName == "repeatedcv" \| resampName == "cv") ){
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	946 isConst <- apply(tableData[, modelInfo$$parameter, drop = FALSE],
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	947 2,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	948 function(x) length(unique(x)) == 1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	949
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	950 numParamInTable <- sum(!isConst)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	951
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	952 if(any(isConst))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	953 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	954 constParam <- modelInfo$$parameter[isConst]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	955 constValues <- format(tableData[, constParam, drop = FALSE], digits = 4)[1,,drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	956 tableData <- tableData[, !(names(tableData) %in% constParam), drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	957 constString <- paste("The tuning",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	958 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	959 "parmeters",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	960 "parameter"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	961 listString(paste("``", names(constValues), "''", sep = "")),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	962 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	963 "were",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	964 "was"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	965 "held constant at",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	966 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	967 "a value of",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	968 "values of"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	969 listString(constValues[1,]))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	970
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	971 } else constString <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	972
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	973 cn <- colnames(tableData)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	974 ## for(i in seq(along = cn))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	975 ## {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	976 ## check <- modelInfo$$parameter %in% cn[i]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	977 ## if(any(check))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	978 ## {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	979 ## cn[i] <- modelInfo$$label[which(check)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	980 ## }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	981 ## }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	982 ## colnames(tableData) <- cn
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	983
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	984 colNums <- c(numParamInTable,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	985 length(modelFit$$perfNames),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	986 length(modelFit$$perfNames))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	987 colLabels <- c("", "Mean", "Standard Deviation")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	988
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	989 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	990 else if (all(modelInfo$$parameter != "parameter") && resampName == "LOOCV"){
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	991 isConst <- apply(tableData[, modelInfo$$parameter, drop = FALSE],
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	992 2,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	993 function(x) length(unique(x)) == 1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	994
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	995 numParamInTable <- sum(!isConst)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	996
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	997 if(any(isConst))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	998 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	999 constParam <- modelInfo$$parameter[isConst]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1000 constValues <- format(tableData[, constParam, drop = FALSE], digits = 4)[1,,drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1001 tableData <- tableData[, !(names(tableData) %in% constParam), drop = FALSE]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1002 constString <- paste("The tuning",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1003 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1004 "parmeters",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1005 "parameter"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1006 listString(paste("``", names(constValues), "''", sep = "")),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1007 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1008 "were",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1009 "was"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1010 "held constant at",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1011 ifelse(sum(isConst) > 1,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1012 "a value of",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1013 "values of"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1014 listString(constValues[1,]))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1015
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1016 } else constString <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1017
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1018 cn <- colnames(tableData)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1019 ## for(i in seq(along = cn))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1020 ## {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1021 ## check <- modelInfo$$parameter %in% cn[i]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1022 ## if(any(check))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1023 ## {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1024 ## cn[i] <- modelInfo$$label[which(check)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1025 ## }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1026 ## }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1027 ## colnames(tableData) <- cn
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1028
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1029 colNums <- c(numParamInTable,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1030 length(modelFit$$perfNames))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1031 colLabels <- c("", "Measures")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1032
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1033 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1034
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1035 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1036
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1037
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1038
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1039 colnames(tableData) <- gsub("SD$$", "", colnames(tableData))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1040 colnames(tableData) <- gsub("Apparent$$", "", colnames(tableData))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1041 colnames(tableData) <- latexTranslate(colnames(tableData))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1042 rownames(tableData) <- latexTranslate(rownames(tableData))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1043
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1044 latex(tableData,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1045 rowname = NULL,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1046 file = "",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1047 cgroup = colLabels,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1048 n.cgroup = colNums,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1049 where = "h!",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1050 digits = 4,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1051 longtable = nrow(tableData) > 30,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1052 caption = paste(resampleName, "results from the model fit.", constString),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1053 label = "T:resamps")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1054 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1055
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1056 \setkeys{Gin}{ width = 0.9\textwidth}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1057 \begin{figure}[b]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1058 \begin{center}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1059
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1060 <<profilePlot, echo = $PROFILEPLOTECHO, fig = $PROFILEPLOTFIG, width = 8, height = 6>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1061 trellis.par.set(caretTheme(), warn = TRUE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1062 if(all(modelInfo$$parameter == "parameter") \| all(isConst) \| modName == "nb")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1063 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1064 resultsPlot <- resampleHist(modelFit)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1065 plotCaption <- paste("Distributions of model performance from the ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1066 "training set estimated using ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1067 resampleName)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1068 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1069 if(modName %in% c("svmPoly", "svmRadial", "svmLinear"))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1070 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1071 resultsPlot <- plot(modelFit,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1072 metric = optMetric,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1073 xTrans = function(x) log10(x))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1074 resultsPlot <- update(resultsPlot,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1075 type = c("g", "p", "l"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1076 ylab = paste(optMetric, " (", resampleName, ")", sep = ""))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1077
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1078 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1079 resultsPlot <- plot(modelFit,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1080 metric = optMetric)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1081 resultsPlot <- update(resultsPlot,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1082 type = c("g", "p", "l"),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1083 ylab = paste(optMetric, " (", resampleName, ")", sep = ""))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1084 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1085 plotCaption <- paste("A plot of the estimates of the",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1086 optMetric,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1087 "values calculated using",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1088 resampleName)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1089 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1090 print(resultsPlot)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1091 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1092 \caption[Performance Plot]{\Sexpr{plotCaption}.}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1093 \label{F:profile}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1094 \end{center}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1095 \end{figure}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1096
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1097
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1098 <<stopWorkers, echo = $STOPWORKERSECHO, results = $STOPWORKERSRESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1099 if(numWorkers > 1) stopCluster(cl)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1100 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1101
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1102 <<testPred, results = $TESTPREDRESULT, echo = $TESTPREDECHO>>=
8 12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1103 if((!is.null(testX)) && (!is.null(testY))){
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1104 save(trainX,trainY,testX,testY,file="datasets.RData")
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1105 } else {
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1106 save(trainX,trainY,file="datasets.RData")
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1107 }
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1108
6 f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1109 if(pctTrain < 1)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1110 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1111 cat("\\clearpage\n\\section*{Test Set Results}\n\n")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1112 classPred <- predict(modelFit, testX)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1113 cm <- confusionMatrix(classPred, testY)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1114 values <- cm$$overall[c("Accuracy", "Kappa", "AccuracyPValue", "McnemarPValue")]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1115
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1116 values <- values[!is.na(values) & !is.nan(values)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1117 values <- c(format(values[1:2], digits = 3),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1118 format.pval(values[-(1:2)], digits = 5))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1119 nms <- c("the overall accuracy", "the Kappa statistic",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1120 "the $$p$$--value that accuracy is greater than the no--information rate",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1121 "the $$p$$--value of concordance from McNemar's test")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1122 nms <- nms[seq(along = values)]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1123 names(values) <- nms
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1124
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1125 if(any(modelInfo$$probModel))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1126 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1127 classProbs <- extractProb(list(fit = modelFit),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1128 testX = testX,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1129 testY = testY)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1130 classProbs <- subset(classProbs, dataType == "Test")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1131 if(numClasses == 2)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1132 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1133 tmp <- twoClassSummary(classProbs, lev = levels(classProbs$$obs))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1134 tmp <- c(format(tmp, digits = 3))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1135 names(tmp) <- c("the area under the ROC curve", "the sensitivity", "the specificity")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1136
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1137 values <- c(values, tmp)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1138
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1139 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1140 probPlot <- plotClassProbs(classProbs)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1141 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1142 testString <- paste("Based on the test set of",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1143 nrow(testX),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1144 "samples,",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1145 listString(paste(names(values), "was", values), period = TRUE),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1146 "The confusion matrix for the test set is shown in Table",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1147 "\\\\ref{T:cm}.")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1148 testString <- paste(testString,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1149 " Using ", resampleName,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1150 ", the training set estimates were ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1151 resampleStats(modelFit),
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1152 ".",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1153 sep = "")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1154
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1155 if(any(modelInfo$$probModel)) testString <- paste(testString,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1156 "Histograms of the class probabilities",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1157 "for the test set samples are shown in",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1158 "Figure \\\\ref{F:probs}",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1159 ifelse(numClasses == 2,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1160 " and the test set ROC curve is in Figure \\\\ref{F:roc}.",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1161 "."))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1162
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1163
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1164
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1165 latex(cm$$table,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1166 title = "",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1167 file = "",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1168 where = "h",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1169 cgroup = "Observed Values",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1170 n.cgroup = numClasses,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1171 caption = "The confusion matrix for the test set",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1172 label = "T:cm")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1173
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1174 } else testString <- ""
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1175 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1176 \Sexpr{testString}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1177
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1178
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1179 <<classProbsTex, results = $CLASSPROBSTEXRESULT, echo = $CLASSPROBSTEXECHO>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1180 if(any(modelInfo$probModel) && pctTrain < 1 ) {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1181 cat(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1182 paste("\\begin{figure}[p]\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1183 "\\begin{center}\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1184 "\\includegraphics{classProbs}",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1185 "\\caption[PCA Plot]{Class probabilities",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1186 "for the test set. Each panel contains ",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1187 "separate classes}\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1188 "\\label{F:probs}\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1189 "\\end{center}\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1190 "\\end{figure}"))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1191 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1192 if(any(modelInfo$$probModel) & numClasses == 2 & pctTrain < 1 )
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1193 {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1194 cat(
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1195 paste("\\begin{figure}[p]\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1196 "\\begin{center}\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1197 "\\includegraphics[clip, width = .8\\textwidth]{roc}",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1198 "\\caption[ROC Plot]{ROC Curve",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1199 "for the test set.}\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1200 "\\label{F:roc}\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1201 "\\end{center}\n",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1202 "\\end{figure}"))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1203 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1204 cat (paste(""))
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1205 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1206
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1207 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1208 <<classProbsTex, results = $CLASSPROBSTEXRESULT1, echo = $CLASSPROBSTEXECHO1 >>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1209 if(any(modelInfo$probModel) && pctTrain < 1) {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1210 pdf("classProbs.pdf", height = 7, width = 7)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1211 trellis.par.set(caretTheme(), warn = FALSE)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1212 print(probPlot)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1213 dev.off()
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1214 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1215 if(any(modelInfo$probModel) & numClasses == 2 & pctTrain < 1) {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1216 resPonse<-testY
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1217 preDictor<-classProbs[, levels(trainY)[1]]
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1218 pdf("roc.pdf", height = 8, width = 8)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1219 # from pROC example at http://web.expasy.org/pROC/screenshots.htm
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1220 plot.roc(resPonse, preDictor, # data
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1221 percent=TRUE, # show all values in percent
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1222 partial.auc=c(100, 90), partial.auc.correct=TRUE, # define a partial AUC (pAUC)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1223 print.auc=TRUE, #display pAUC value on the plot with following options:
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1224 print.auc.pattern="Corrected pAUC (100-90%% SP):\n%.1f%%", print.auc.col="#1c61b6",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1225 auc.polygon=TRUE, auc.polygon.col="#1c61b6", # show pAUC as a polygon
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1226 max.auc.polygon=TRUE, max.auc.polygon.col="#1c61b622", # also show the 100% polygon
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1227 main="Partial AUC (pAUC)")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1228 plot.roc(resPonse, preDictor,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1229 percent=TRUE, add=TRUE, type="n", # add to plot, but don't re-add the ROC itself (useless)
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1230 partial.auc=c(100, 90), partial.auc.correct=TRUE,
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1231 partial.auc.focus="se", # focus pAUC on the sensitivity
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1232 print.auc=TRUE, print.auc.pattern="Corrected pAUC (100-90%% SE):\n%.1f%%", print.auc.col="#008600",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1233 print.auc.y=40, # do not print auc over the previous one
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1234 auc.polygon=TRUE, auc.polygon.col="#008600",
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1235 max.auc.polygon=TRUE, max.auc.polygon.col="#00860022")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1236 dev.off()
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1237 } else {
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1238 cat("")
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1239 }
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1240
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1241 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1242
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1243 \section*{Versions}
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1244
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1245 <<versions, echo = FALSE, results = tex>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1246 toLatex(sessionInfo())
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1247
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1248 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1249
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1250 <<save-data, echo = $SAVEDATAECHO, results = $SAVEDATARESULT>>=
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1251 ## change this to the name of modName....
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1252 Fit<-modelFit
8 12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1253
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1254 if(exists('ppInfo') && !is.null(ppInfo)){
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1255 save(Fit,ppInfo,file="$METHOD-Fit.RData")
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1256 } else {save(Fit,file="$METHOD-Fit.RData")}
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1257
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1258
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1259
12fde17bdd75 Uploaded deepakjadmin parents: 7 diff changeset	1260
6 f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1261 @
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1262 The model was built using $METHOD and is saved as $METHOD Model for reuse. This contains the variable Fit.
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1263
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1264 \end{document}'''
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1265
f8c9f83c7abb Uploaded deepakjadmin parents: diff changeset	1266 return template4Rnw

Mercurial > repos > deepakjadmin > caret_tool2

annotate templateLibrary.py @ 9:a4f43286eef6 draft