feature_selection_test1: feature

annotate feature_selection.R @ 5:016c69bfb2a1 draft

Uploaded

author	deepakjadmin
date	Tue, 03 Jan 2017 02:26:17 -0500
parents
children	d56ce97c4985

rev	line source
5 016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	1 args <- commandArgs(T)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	2
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	3 arg1 <- args[1]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	4 arg2 <- args[2]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	5 arg3 <- args[3]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	6 arg4 <- args[4]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	7 arg5 <- args[5]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	8 arg6 <- args[6]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	9 arg7 <- args[7]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	10 arg8 <- args[8]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	11 arg9 <- args[9]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	12 library(caret)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	13 load(arg1)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	14
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	15 #RAWDATA <- dataX
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	16 #RAWDATA$outcome <- dataY
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	17
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	18
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	19 ###########################
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	20 Smpling <- arg9
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	21
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	22 if(Smpling=="downsampling")
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	23 {
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	24 dwnsmpl <- downSample(dataX,dataY)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	25 RAWDATA <- dwnsmpl[,1:length(dwnsmpl)-1]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	26 RAWDATA$outcome <- dwnsmpl[,length(dwnsmpl)]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	27 dataX <- RAWDATA[,1:length(dwnsmpl)-1]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	28 dataY <- RAWDATA[,"outcome"]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	29 remove("dwnsmpl")
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	30 }else if(Smpling=="upsampling"){
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	31 upsmpl <- upSample(dataX,dataY)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	32 RAWDATA <- upsmpl[,1:length(upsmpl)-1]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	33 RAWDATA$outcome <- upsmpl[,length(upsmpl)]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	34 dataX <- RAWDATA[,1:length(upsmpl)-1]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	35 dataY <- RAWDATA[,"outcome"]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	36 remove("upsmpl")
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	37 }else {
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	38 RAWDATA <- dataX
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	39 RAWDATA$outcome <- dataY
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	40 }
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	41
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	42
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	43
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	44
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	45 ##########################
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	46
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	47
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	48 rawData <- dataX
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	49 predictorNames <- names(rawData)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	50
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	51 isNum <- apply(rawData[,predictorNames, drop = FALSE], 2, is.numeric)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	52 if(any(!isNum)) stop("all predictors in rawData should be numeric")
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	53
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	54 colRate <- apply(rawData[, predictorNames, drop = FALSE],
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	55 2, function(x) mean(is.na(x)))
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	56 colExclude <- colRate > 0.1
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	57 if(any(colExclude)){
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	58 predictorNames <- predictorNames[-which(colExclude)]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	59 rawData <- RAWDATA[, c(predictorNames,"outcome")]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	60 } else {
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	61 rawData <- RAWDATA
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	62 }
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	63 rowRate <- apply(rawData[, predictorNames, drop = FALSE],
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	64 1, function(x) mean(is.na(x)))
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	65
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	66
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	67 rowExclude <- rowRate > 0
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	68 if(any(rowExclude)){
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	69 rawData <- rawData[!rowExclude, ]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	70 ##hasMissing <- apply(rawData[, predictorNames, drop = FALSE],
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	71 ##1, function(x) mean(is.na(x)))
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	72
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	73 ############################################################################
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	74
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	75
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	76 ###############################################################################
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	77 } else {
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	78 rawData <- rawData[complete.cases(rawData),]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	79
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	80 }
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	81
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	82 set.seed(2)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	83
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	84 #print(dim(dataX))
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	85 #print(dim(rawData))
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	86 #print(length(dataY))
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	87
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	88 nzv <- nearZeroVar(rawData[,1:(length(rawData) - 1)])
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	89 if(length(nzv) > 0) {
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	90 #nzvVars <- names(rawData)[nzv]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	91 rawData <- rawData[,-nzv]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	92 #rawData$outcome <- dataY
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	93 }
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	94
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	95 predictorNames <- names(rawData)[names(rawData) != "outcome"]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	96
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	97 dx <- rawData[,1:length(rawData)-1]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	98 dy <- rawData[,length(rawData)]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	99 corrThresh <- as.numeric(arg8)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	100 highCorr <- findCorrelation(cor(dx, use = "pairwise.complete.obs"),corrThresh)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	101 dx <- dx[, -highCorr]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	102 subsets <- seq(1,length(dx),by=5)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	103 normalization <- preProcess(dx)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	104 dx <- predict(normalization, dx)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	105 dx <- as.data.frame(dx)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	106
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	107 if (arg4 == "lmFuncs"){
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	108 ctrl1 <- rfeControl(functions = lmFuncs,
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	109 method = arg5 ,
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	110 repeats = as.numeric(arg6),
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	111 number = as.numeric(arg7),
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	112 verbose = FALSE)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	113 } else if(arg4 == "rfFuncs"){
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	114 ctrl1 <- rfeControl(functions = rfFuncs,
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	115 method = arg5 ,
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	116 repeats = as.numeric(arg6),
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	117 number = as.numeric(arg7),
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	118 verbose = FALSE)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	119 }else if (arg4 == "treebagFuncs"){
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	120 ctrl1 <- rfeControl(functions = treebagFuncs,
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	121 method = arg5 ,
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	122 repeats = as.numeric(arg6),
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	123 number = as.numeric(arg7),
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	124 verbose = FALSE)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	125 }else {
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	126
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	127 ctrl1 <- rfeControl(functions = nbFuncs,
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	128 method = arg5 ,
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	129 repeats = as.numeric(arg6),
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	130 number = as.numeric(arg7),
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	131 verbose = FALSE)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	132 }
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	133
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	134
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	135
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	136
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	137 Profile <- rfe(dx, dy,sizes = subsets,rfeControl = ctrl1)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	138
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	139 pred11 <- predictors(Profile)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	140 save(Profile,file=arg2)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	141 dataX <- rawData[,pred11]
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	142 dataY <- rawData$outcome
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	143
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	144 save(dataX,dataY,file=arg3)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	145 rm(dataX)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	146 rm(dataY)
016c69bfb2a1 Uploaded deepakjadmin parents: diff changeset	147

Mercurial > repos > deepakjadmin > feature_selection_test1

annotate feature_selection.R @ 5:016c69bfb2a1 draft