report_clonality_igg: RScript.r comparison

comparison RScript.r @ 27:f919965e8816 draft

Uploaded

author	davidvanzessen
date	Fri, 06 Mar 2015 09:59:53 -0500
parents	01f05258f672
children

comparison

equal deleted inserted replaced

-:01f05258f672
+:f919965e8816
 if (!("reshape2" %in% rownames(installed.packages()))) {
 install.packages("reshape2", repos="http://cran.xl-mirror.nl/")
 }
 library(reshape2)
+if (!("lymphclon" %in% rownames(installed.packages()))) {
+install.packages("lymphclon", repos="http://cran.xl-mirror.nl/")
+}
+library(lymphclon)
 # ---------------------- parameters ----------------------
 args <- commandArgs(trailingOnly = TRUE)
 clonaltype = args[4] #clonaltype definition, or 'none' for no unique filtering
 ct = unlist(strsplit(clonaltype, ","))
 species = args[5] #human or mouse
 locus = args[6] # IGH, IGK, IGL, TRB, TRA, TRG or TRD
 filterproductive = ifelse(args[7] == "yes", T, F) #should unproductive sequences be filtered out? (yes/no)
+clonality_method = args[8]
 # ---------------------- Data preperation ----------------------
 inputdata = read.table(infile, sep="\t", header=TRUE, fill=T, comment.char="")
 useD = TRUE
 if(nrow(Dchain) == 0){
 useD = FALSE
 cat("No D Genes in this species/locus")
 }
 print(paste("useD:", useD))
 # ---------------------- merge with the frequency count ----------------------
 PRODFV = merge(PRODFV, Vchain, by.x='Top.V.Gene', by.y='v.name', all.x=TRUE)
 # ---------------------- calculating the clonality score ----------------------
 if("Replicate" %in% colnames(inputdata)) #can only calculate clonality score when replicate information is available
 {
-write.table(clonalityFrame, "clonalityComplete.csv", sep=",",quote=F,row.names=F,col.names=T)
+if(clonality_method == "boyd"){
+samples = split(clonalityFrame, clonalityFrame$Sample, drop=T)
-ClonalitySampleReplicatePrint <- function(dat){
-write.table(dat, paste("clonality_", unique(inputdata$Sample) , "_", unique(dat$Replicate), ".csv", sep=""), sep=",",quote=F,row.names=F,col.names=T)
+for (sample in samples){
+res = data.frame(paste=character(0))
+sample_id = unique(sample$Sample)[[1]]
+for(replicate in unique(sample$Replicate)){
+tmp = sample[sample$Replicate == replicate,]
+clone_table = data.frame(table(tmp$clonaltype))
+clone_col_name = paste("V", replicate, sep="")
+colnames(clone_table) = c("paste", clone_col_name)
+res = merge(res, clone_table, by="paste", all=T)
+}
+res[is.na(res)] = 0
+infer.result = infer.clonality(as.matrix(res[,2:ncol(res)]))
+write.table(data.table(infer.result[[12]]), file=paste("lymphclon_clonality_", sample_id, ".csv", sep=""), sep=",",quote=F,row.names=F,col.names=F)
+res$type = rowSums(res[,2:ncol(res)])
+coincidence.table = data.frame(table(res$type))
+colnames(coincidence.table) = c("Coincidence Type",  "Raw Coincidence Freq")
+write.table(coincidence.table, file=paste("lymphclon_coincidences_", sample_id, ".csv", sep=""), sep=",",quote=F,row.names=F,col.names=T)
+}
+} else {
+write.table(clonalityFrame, "clonalityComplete.csv", sep=",",quote=F,row.names=F,col.names=T)
+clonalFreq = data.frame(data.table(clonalityFrame)[, list(Type=.N), by=c("Sample", "clonaltype")])
+clonalFreqCount = data.frame(data.table(clonalFreq)[, list(Count=.N), by=c("Sample", "Type")])
+clonalFreqCount$realCount = clonalFreqCount$Type * clonalFreqCount$Count
+clonalSum = data.frame(data.table(clonalFreqCount)[, list(Reads=sum(realCount)), by=c("Sample")])
+clonalFreqCount = merge(clonalFreqCount, clonalSum, by.x="Sample", by.y="Sample")
+ct = c('Type\tWeight\n2\t1\n3\t3\n4\t6\n5\t10\n6\t15')
+tcct = textConnection(ct)
+CT  = read.table(tcct, sep="\t", header=TRUE)
+close(tcct)
+clonalFreqCount = merge(clonalFreqCount, CT, by.x="Type", by.y="Type", all.x=T)
+clonalFreqCount$WeightedCount = clonalFreqCount$Count * clonalFreqCount$Weight
+ReplicateReads = data.frame(data.table(clonalityFrame)[, list(Type=.N), by=c("Sample", "Replicate", "clonaltype")])
+ReplicateReads = data.frame(data.table(ReplicateReads)[, list(Reads=.N), by=c("Sample", "Replicate")])
+clonalFreqCount$Reads = as.numeric(clonalFreqCount$Reads)
+ReplicateReads$squared = ReplicateReads$Reads * ReplicateReads$Reads
+ReplicatePrint <- function(dat){
+write.table(dat[-1], paste("ReplicateReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
+}
+ReplicateSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])
+lapply(ReplicateSplit, FUN=ReplicatePrint)
+ReplicateReads = data.frame(data.table(ReplicateReads)[, list(ReadsSum=sum(as.numeric(Reads)), ReadsSquaredSum=sum(as.numeric(squared))), by=c("Sample")])
+clonalFreqCount = merge(clonalFreqCount, ReplicateReads, by.x="Sample", by.y="Sample", all.x=T)
+ReplicateSumPrint <- function(dat){
+write.table(dat[-1], paste("ReplicateSumReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
+}
+ReplicateSumSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])
+lapply(ReplicateSumSplit, FUN=ReplicateSumPrint)
+clonalFreqCountSum = data.frame(data.table(clonalFreqCount)[, list(Numerator=sum(WeightedCount, na.rm=T)), by=c("Sample")])
+clonalFreqCount = merge(clonalFreqCount, clonalFreqCountSum, by.x="Sample", by.y="Sample", all.x=T)
+clonalFreqCount$ReadsSum = as.numeric(clonalFreqCount$ReadsSum) #prevent integer overflow
+clonalFreqCount$Denominator = (((clonalFreqCount$ReadsSum * clonalFreqCount$ReadsSum) - clonalFreqCount$ReadsSquaredSum) / 2)
+clonalFreqCount$Result = (clonalFreqCount$Numerator + 1) / (clonalFreqCount$Denominator + 1)
+ClonalityScorePrint <- function(dat){
+write.table(dat$Result, paste("ClonalityScore_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
+}
+clonalityScore = clonalFreqCount[c("Sample", "Result")]
+clonalityScore = unique(clonalityScore)
+clonalityScoreSplit = split(clonalityScore, f=clonalityScore[,"Sample"])
+lapply(clonalityScoreSplit, FUN=ClonalityScorePrint)
+clonalityOverview = clonalFreqCount[c("Sample", "Type", "Count", "Weight", "WeightedCount")]
+ClonalityOverviewPrint <- function(dat){
+write.table(dat[-1], paste("ClonalityOverView_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
+}
+clonalityOverviewSplit = split(clonalityOverview, f=clonalityOverview$Sample)
+lapply(clonalityOverviewSplit, FUN=ClonalityOverviewPrint)
 }
-clonalityFrameSplit = split(clonalityFrame, f=clonalityFrame[,c("Sample", "Replicate")])
-#lapply(clonalityFrameSplit, FUN=ClonalitySampleReplicatePrint)
-ClonalitySamplePrint <- function(dat){
-write.table(dat, paste("clonality_", unique(inputdata$Sample) , ".csv", sep=""), sep=",",quote=F,row.names=F,col.names=T)
-}
-clonalityFrameSplit = split(clonalityFrame, f=clonalityFrame[,"Sample"])
-#lapply(clonalityFrameSplit, FUN=ClonalitySamplePrint)
-clonalFreq = data.frame(data.table(clonalityFrame)[, list(Type=.N), by=c("Sample", "clonaltype")])
-clonalFreqCount = data.frame(data.table(clonalFreq)[, list(Count=.N), by=c("Sample", "Type")])
-clonalFreqCount$realCount = clonalFreqCount$Type * clonalFreqCount$Count
-clonalSum = data.frame(data.table(clonalFreqCount)[, list(Reads=sum(realCount)), by=c("Sample")])
-clonalFreqCount = merge(clonalFreqCount, clonalSum, by.x="Sample", by.y="Sample")
-ct = c('Type\tWeight\n2\t1\n3\t3\n4\t6\n5\t10\n6\t15')
-tcct = textConnection(ct)
-CT  = read.table(tcct, sep="\t", header=TRUE)
-close(tcct)
-clonalFreqCount = merge(clonalFreqCount, CT, by.x="Type", by.y="Type", all.x=T)
-clonalFreqCount$WeightedCount = clonalFreqCount$Count * clonalFreqCount$Weight
-ReplicateReads = data.frame(data.table(clonalityFrame)[, list(Type=.N), by=c("Sample", "Replicate", "clonality_clonaltype")])
-ReplicateReads = data.frame(data.table(ReplicateReads)[, list(Reads=.N), by=c("Sample", "Replicate")])
-clonalFreqCount$Reads = as.numeric(clonalFreqCount$Reads)
-ReplicateReads$squared = ReplicateReads$Reads * ReplicateReads$Reads
-ReplicatePrint <- function(dat){
-write.table(dat[-1], paste("ReplicateReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
-}
-ReplicateSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])
-lapply(ReplicateSplit, FUN=ReplicatePrint)
-ReplicateReads = data.frame(data.table(ReplicateReads)[, list(ReadsSum=sum(as.numeric(Reads)), ReadsSquaredSum=sum(as.numeric(squared))), by=c("Sample")])
-clonalFreqCount = merge(clonalFreqCount, ReplicateReads, by.x="Sample", by.y="Sample", all.x=T)
-ReplicateSumPrint <- function(dat){
-write.table(dat[-1], paste("ReplicateSumReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
-}
-ReplicateSumSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])
-lapply(ReplicateSumSplit, FUN=ReplicateSumPrint)
-clonalFreqCountSum = data.frame(data.table(clonalFreqCount)[, list(Numerator=sum(WeightedCount, na.rm=T)), by=c("Sample")])
-clonalFreqCount = merge(clonalFreqCount, clonalFreqCountSum, by.x="Sample", by.y="Sample", all.x=T)
-clonalFreqCount$ReadsSum = as.numeric(clonalFreqCount$ReadsSum) #prevent integer overflow
-clonalFreqCount$Denominator = (((clonalFreqCount$ReadsSum * clonalFreqCount$ReadsSum) - clonalFreqCount$ReadsSquaredSum) / 2)
-clonalFreqCount$Result = (clonalFreqCount$Numerator + 1) / (clonalFreqCount$Denominator + 1)
-ClonalityScorePrint <- function(dat){
-write.table(dat$Result, paste("ClonalityScore_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
-}
-clonalityScore = clonalFreqCount[c("Sample", "Result")]
-clonalityScore = unique(clonalityScore)
-clonalityScoreSplit = split(clonalityScore, f=clonalityScore[,"Sample"])
-lapply(clonalityScoreSplit, FUN=ClonalityScorePrint)
-clonalityOverview = clonalFreqCount[c("Sample", "Type", "Count", "Weight", "WeightedCount")]
-ClonalityOverviewPrint <- function(dat){
-write.table(dat[-1], paste("ClonalityOverView_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
-}
-clonalityOverviewSplit = split(clonalityOverview, f=clonalityOverview$Sample)
-lapply(clonalityOverviewSplit, FUN=ClonalityOverviewPrint)
 }
 imgtcolumns = c("X3V.REGION.trimmed.nt.nb","P3V.nt.nb", "N1.REGION.nt.nb", "P5D.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "P3D.nt.nb", "N2.REGION.nt.nb", "P5J.nt.nb", "X5J.REGION.trimmed.nt.nb", "X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb")
 if(all(imgtcolumns %in% colnames(inputdata)))
 {

Mercurial > repos > davidvanzessen > report_clonality_igg

comparison RScript.r @ 27:f919965e8816 draft