clonal_sequences_in_paired_samples: RScript.r annotate

annotate RScript.r @ 12:eb5b569b44dd draft

Uploaded

author	davidvanzessen
date	Wed, 10 Dec 2014 09:49:16 -0500
parents	bc4612998d50
children	576de7c96c4f

rev	line source
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	1 args <- commandArgs(trailingOnly = TRUE)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	2
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	3 inFile = args[1]
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	4 outDir = args[2]
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	5 logfile = args[3]
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	6 min_freq = as.numeric(args[4])
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	7 min_cells = as.numeric(args[5])
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	8
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	9 cat("<html><table><tr><td>Starting analysis</td></tr>", file=logfile, append=F)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	10
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	11 library(ggplot2)
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	12 library(reshape2)
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	13 library(data.table)
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	14 library(grid)
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	15 library(parallel)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	16 #require(xtable)
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	17 cat("<tr><td>Reading input</td></tr>", file=logfile, append=T)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	18 dat = read.table(inFile, header=T, sep="\t", dec=",", fill=T, stringsAsFactors=F)
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	19 dat = dat[!is.na(dat$Patient),]
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	20 dat = dat[!duplicated(dat$Clone_Sequence), ]
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	21
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	22 setwd(outDir)
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	23 cat("<tr><td>Selecting first V/J Genes</td></tr>", file=logfile, append=T)
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	24 dat$V_Segment_Major_Gene = as.factor(as.character(lapply(strsplit(as.character(dat$V_Segment_Major_Gene), "; "), "[[", 1)))
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	25 dat$J_Segment_Major_Gene = as.factor(as.character(lapply(strsplit(as.character(dat$J_Segment_Major_Gene), "; "), "[[", 1)))
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	26
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	27 dat$Frequency = ((10^dat$Log10_Frequency)*100)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	28
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	29 cat("<tr><td>Deduplication</td></tr>", file=logfile, append=T)
11 bc4612998d50 Uploaded davidvanzessen parents: 10 diff changeset	30 #dat = data.frame(data.table(dat)[, list(Patient=unique(.SD$Patient), Clone_Molecule_Count_From_Spikes=sum(.SD$Clone_Molecule_Count_From_Spikes), Log10_Frequency=sum(.SD$Log10_Frequency), Total_Read_Count=sum(.SD$Total_Read_Count), Related_to_leukemia_clone=any(.SD$Related_to_leukemia_clone)), by=c("Sample", "Cell_Count", "J_Segment_Major_Gene", "V_Segment_Major_Gene", "CDR3_Sense_Sequence")])
bc4612998d50 Uploaded davidvanzessen parents: 10 diff changeset	31
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	32 most.common = function(x, ret="V"){
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	33 past = paste(x$V_Segment_Major_Gene, x$J_Segment_Major_Gene, sep=";")
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	34 ux = unique(past)
11 bc4612998d50 Uploaded davidvanzessen parents: 10 diff changeset	35 if(length(ux) > 1){
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	36 xtdf = data.frame(table(past))
11 bc4612998d50 Uploaded davidvanzessen parents: 10 diff changeset	37 #print(xtdf)
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	38 res = unlist(strsplit(as.character(xtdf$past[which.max(xtdf$Freq)]), ";"))
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	39 #print(res)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	40 if(ret == "V"){
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	41 return(res[1])
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	42 } else {
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	43 return(res[2])
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	44 }
11 bc4612998d50 Uploaded davidvanzessen parents: 10 diff changeset	45 }
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	46
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	47 if(ret == "V"){
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	48 return(unique(x$V_Segment_Major_Gene))
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	49 } else {
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	50 return(unique(x$J_Segment_Major_Gene))
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	51 }
11 bc4612998d50 Uploaded davidvanzessen parents: 10 diff changeset	52 }
bc4612998d50 Uploaded davidvanzessen parents: 10 diff changeset	53
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	54 dat = data.frame(data.table(dat)[, list(Patient=unique(.SD$Patient), V_Segment_Major_Gene= as.character(most.common(.SD, ret="V")), J_Segment_Major_Gene= as.character(most.common(.SD, ret="J")), Clone_Molecule_Count_From_Spikes=sum(.SD$Clone_Molecule_Count_From_Spikes), Log10_Frequency=sum(.SD$Log10_Frequency), Frequency=sum(.SD$Frequency), Total_Read_Count=sum(.SD$Total_Read_Count), Related_to_leukemia_clone=any(.SD$Related_to_leukemia_clone)), by=c("Sample", "Cell_Count", "CDR3_Sense_Sequence")])
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	55 dat = data.frame(data.table(dat)[, list(Patient=unique(.SD$Patient), Clone_Molecule_Count_From_Spikes=sum(.SD$Clone_Molecule_Count_From_Spikes), Log10_Frequency=sum(.SD$Log10_Frequency), Frequency=sum(.SD$Frequency), Total_Read_Count=sum(.SD$Total_Read_Count), Related_to_leukemia_clone=any(.SD$Related_to_leukemia_clone)), by=c("Sample", "Cell_Count", "J_Segment_Major_Gene", "V_Segment_Major_Gene", "CDR3_Sense_Sequence")])
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	56
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	57 cat("<tr><td>Calculating Frequency</td></tr>", file=logfile, append=T)
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	58
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	59
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	60 dat = dat[dat$Frequency >= min_freq,]
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	61
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	62 #cat("<tr><td>Normalizing cell count to 1.000.000</td></tr>", file=logfile, append=T)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	63 #dat$normalized_read_count = round(dat$Clone_Molecule_Count_From_Spikes / dat$Cell_Count * 1000000 / 2)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	64 dat$normalized_read_count = dat$Clone_Molecule_Count_From_Spikes
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	65 dat = dat[dat$normalized_read_count >= min_cells,]
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	66 dat$paste = paste(dat$Sample, dat$V_Segment_Major_Gene, dat$J_Segment_Major_Gene, dat$CDR3_Sense_Sequence)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	67 triplets = dat[grepl("VanDongen_cALL_14696", dat$Patient) \| grepl("(16278)\|(26402)\|(26759)", dat$Sample),]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	68
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	69 patients = split(dat, dat$Patient, drop=T)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	70 intervalReads = rev(c(0,10,25,50,100,250,500,750,1000,10000))
6 8313c6cc65c5 Uploaded davidvanzessen parents: 5 diff changeset	71 intervalFreq = rev(c(0,0.01,0.05,0.1,0.5,1,5))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	72 V_Segments = c(".*", "IGHV", "IGHD", "IGKV", "IGKV", "IgKINTR", "TRGV", "TRDV", "TRDD" , "TRBV")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	73 J_Segments = c(".", ".", ".", "IGKJ", "KDE", ".", ".", ".", ".", ".")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	74 Titles = c("Total", "IGH-Vh-Jh", "IGH-Dh-Jh", "Vk-Jk", "Vk-Kde" , "Intron-Kde", "TCRG", "TCRD-Vd-Dd", "TCRD-Dd-Dd", "TCRB-Vb-Jb")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	75 Titles = factor(Titles, levels=Titles)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	76 TitlesOrder = data.frame("Title"=Titles, "TitlesOrder"=1:length(Titles))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	77
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	78 patientCountOnColumn <- function(x, product, interval, on, appendtxt=F){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	79 x$Sample = factor(x$Sample, levels=unique(x$Sample))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	80 onShort = "reads"
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	81 if(on == "Frequency"){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	82 onShort = "freq"
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	83 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	84 splt = split(x, x$Sample, drop=T)
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	85 type="pair"
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	86 if(length(splt) == 1){
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	87 print(paste(paste(x[1,which(colnames(x) == "Patient")]), "has one sample"))
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	88 splt[[2]] = data.frame("Patient" = character(0), "Receptor" = character(0), "Sample" = character(0), "Cell_Count" = numeric(0), "Clone_Molecule_Count_From_Spikes" = numeric(0), "Log10_Frequency" = numeric(0), "Total_Read_Count" = numeric(0), "dsMol_per_1e6_cells" = numeric(0), "J_Segment_Major_Gene" = character(0), "V_Segment_Major_Gene" = character(0), "Clone_Sequence" = character(0), "CDR3_Sense_Sequence" = character(0), "Related_to_leukemia_clone" = logical(0), "Frequency"= numeric(0), "normalized_read_count" = numeric(0), "paste" = character(0))
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	89 type="single"
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	90 }
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	91 patient1 = splt[[1]]
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	92 patient2 = splt[[2]]
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	93
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	94 threshholdIndex = which(colnames(product) == "interval")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	95 V_SegmentIndex = which(colnames(product) == "V_Segments")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	96 J_SegmentIndex = which(colnames(product) == "J_Segments")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	97 titleIndex = which(colnames(product) == "Titles")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	98 sampleIndex = which(colnames(x) == "Sample")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	99 patientIndex = which(colnames(x) == "Patient")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	100 oneSample = paste(patient1[1,sampleIndex], sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	101 twoSample = paste(patient2[1,sampleIndex], sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	102 patient = paste(x[1,patientIndex])
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	103
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	104 switched = F
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	105 if(length(grep("._Right$", twoSample)) == 1 \|\| length(grep("._Dx_BM$", twoSample)) == 1 \|\| length(grep(".*_Dx$", twoSample)) == 1 ){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	106 tmp = twoSample
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	107 twoSample = oneSample
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	108 oneSample = tmp
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	109 tmp = patient1
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	110 patient1 = patient2
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	111 patient2 = tmp
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	112 switched = T
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	113 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	114 if(appendtxt){
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	115 cat(paste(patient, oneSample, twoSample, type, sep="\t"), file="patients.txt", append=T, sep="", fill=3)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	116 }
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	117 cat(paste("<tr><td>", patient, "</td></tr>", sep=""), file=logfile, append=T)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	118
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	119 #patient1$merge = paste(patient1$V_Segment_Major_Gene, patient1$J_Segment_Major_Gene, patient1$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	120 #patient2$merge = paste(patient2$V_Segment_Major_Gene, patient2$J_Segment_Major_Gene, patient2$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	121 patient1$merge = paste(patient1$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	122 patient2$merge = paste(patient2$CDR3_Sense_Sequence)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	123
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	124 #patientMerge = merge(patient1, patient2, by.x="merge", by.y="merge")
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	125 patientMerge = merge(patient1, patient2, by.x="merge", by.y="merge")
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	126 res1 = vector()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	127 res2 = vector()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	128 resBoth = vector()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	129 read1Count = vector()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	130 read2Count = vector()
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	131 locussum1 = vector()
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	132 locussum2 = vector()
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	133
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	134 print(patient)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	135 #for(iter in 1){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	136 for(iter in 1:length(product[,1])){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	137 threshhold = product[iter,threshholdIndex]
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	138 V_Segment = paste(".", as.character(product[iter,V_SegmentIndex]), ".", sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	139 J_Segment = paste(".", as.character(product[iter,J_SegmentIndex]), ".", sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	140 both = (grepl(V_Segment, patientMerge$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge$J_Segment_Major_Gene.x) & patientMerge[,paste(on, ".x", sep="")] > threshhold & patientMerge[,paste(on, ".y", sep="")] > threshhold)
10 974febc99fd4 Uploaded davidvanzessen parents: 9 diff changeset	141 one = (grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene) & patient1[,on] > threshhold & !(patient1$CDR3_Sense_Sequence %in% patientMerge[both,]$CDR3_Sense_Sequence.x))
974febc99fd4 Uploaded davidvanzessen parents: 9 diff changeset	142 two = (grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene) & patient2[,on] > threshhold & !(patient2$CDR3_Sense_Sequence %in% patientMerge[both,]$CDR3_Sense_Sequence.x))
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	143 read1Count = append(read1Count, sum(patient1[one,]$normalized_read_count) + sum(patientMerge[both,]$normalized_read_count.x))
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	144 read2Count = append(read2Count, sum(patient2[two,]$normalized_read_count) + sum(patientMerge[both,]$normalized_read_count.y))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	145 res1 = append(res1, sum(one))
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	146 res2 = append(res2, sum(two))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	147 resBoth = append(resBoth, sum(both))
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	148 locussum1 = append(locussum1, sum(patient1[(grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene)),]$normalized_read_count))
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	149 locussum2 = append(locussum2, sum(patient2[(grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene)),]$normalized_read_count))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	150 #threshhold = 0
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	151 if(threshhold != 0){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	152 if(sum(one) > 0){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	153 dfOne = patient1[one,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "CDR3_Sense_Sequence", "Related_to_leukemia_clone")]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	154 colnames(dfOne) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "CDR3 Sequence", "Related_to_leukemia_clone")
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	155 filenameOne = paste(oneSample, "_", product[iter, titleIndex], "_", threshhold, sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	156 write.table(dfOne, file=paste(filenameOne, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	157 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	158 if(sum(two) > 0){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	159 dfTwo = patient2[two,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "CDR3_Sense_Sequence", "Related_to_leukemia_clone")]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	160 colnames(dfTwo) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "CDR3 Sequence", "Related_to_leukemia_clone")
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	161 filenameTwo = paste(twoSample, "_", product[iter, titleIndex], "_", threshhold, sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	162 write.table(dfTwo, file=paste(filenameTwo, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	163 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	164 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	165 if(sum(both) > 0){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	166 dfBoth = patientMerge[both,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "CDR3_Sense_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y")]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	167 colnames(dfBoth) = c(paste("Proximal segment", oneSample), paste("Distal segment", oneSample), paste("Normalized_Read_Count", oneSample), paste("Frequency", oneSample), paste("Related_to_leukemia_clone", oneSample),"CDR3 Sequence", paste("Proximal segment", twoSample), paste("Distal segment", twoSample), paste("Normalized_Read_Count", twoSample), paste("Frequency", twoSample), paste("Related_to_leukemia_clone", twoSample))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	168 filenameBoth = paste(oneSample, "_", twoSample, "_", product[iter, titleIndex], "_", threshhold, sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	169 write.table(dfBoth, file=paste(filenameBoth, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	170 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	171 }
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	172 patientResult = data.frame("Locus"=product$Titles, "J_Segment"=product$J_Segments, "V_Segment"=product$V_Segments, "cut_off_value"=paste(">", product$interval, sep=""), "Both"=resBoth, "tmp1"=res1, "read_count1" = round(read1Count), "tmp2"=res2, "read_count2"= round(read2Count), "Sum"=res1 + res2 + resBoth, "percentage" = round((resBoth/(res1 + res2 + resBoth)) * 100, digits=2), "Locus_sum1"=locussum1, "Locus_sum2"=locussum2)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	173 if(sum(is.na(patientResult$percentage)) > 0){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	174 patientResult[is.na(patientResult$percentage),]$percentage = 0
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	175 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	176 colnames(patientResult)[6] = oneSample
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	177 colnames(patientResult)[8] = twoSample
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	178 colnamesBak = colnames(patientResult)
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	179 colnames(patientResult) = c("Ig/TCR gene rearrangement type", "Distal Gene segment", "Proximal gene segment", "cut_off_value", paste("Number of sequences ", patient, "_Both", sep=""), paste("Number of sequences", oneSample, sep=""), paste("Normalized Read Count", oneSample), paste("Number of sequences", twoSample, sep=""), paste("Normalized Read Count", twoSample), paste("Sum number of sequences", patient), paste("Percentage of sequences ", patient, "_Both", sep=""), paste("Locus Sum", oneSample), paste("Locus Sum", twoSample))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	180 write.table(patientResult, file=paste(patient, "_", onShort, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	181 colnames(patientResult) = colnamesBak
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	182
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	183 patientResult$Locus = factor(patientResult$Locus, Titles)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	184 patientResult$cut_off_value = factor(patientResult$cut_off_value, paste(">", interval, sep=""))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	185
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	186 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "Both")])
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	187 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=Both), stat='identity', position="dodge", fill="#79c36a")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	188 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	189 plt = plt + geom_text(aes(ymax=max(Both), x=cut_off_value,y=Both,label=Both), angle=90, hjust=0)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	190 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in both")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	191 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	192 png(paste(patient, "_", onShort, ".png", sep=""), width=1920, height=1080)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	193 print(plt)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	194 dev.off()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	195 #(t,r,b,l)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	196 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "percentage")])
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	197 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=percentage), stat='identity', position="dodge", fill="#79c36a")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	198 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	199 plt = plt + geom_text(aes(ymax=max(percentage), x=cut_off_value,y=percentage,label=percentage), angle=90, hjust=0)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	200 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("% clones in both left and right")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	201 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	202 png(paste(patient, "_percent_", onShort, ".png", sep=""), width=1920, height=1080)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	203 print(plt)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	204 dev.off()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	205
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	206 patientResult = melt(patientResult[,c('Locus','cut_off_value', oneSample, twoSample)] ,id.vars=1:2)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	207 patientResult$relativeValue = patientResult$value * 10
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	208 patientResult[patientResult$relativeValue == 0,]$relativeValue = 1
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	209 plt = ggplot(patientResult)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	210 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=relativeValue, fill=variable), stat='identity', position="dodge")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	211 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	212 plt = plt + scale_y_continuous(trans="log", breaks=10^c(0:10), labels=c(0, 10^c(0:9)))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	213 plt = plt + geom_text(data=patientResult[patientResult$variable == oneSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=-0.2)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	214 plt = plt + geom_text(data=patientResult[patientResult$variable == twoSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=0.8)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	215 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle(paste("Number of clones in only ", oneSample, " and only ", twoSample, sep=""))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	216 png(paste(patient, "_", onShort, "_both.png", sep=""), width=1920, height=1080)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	217 print(plt)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	218 dev.off()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	219 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	220
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	221 cat("<tr><td>Starting Frequency analysis</td></tr>", file=logfile, append=T)
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	222
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	223 interval = intervalFreq
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	224 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	225 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	226 mclapply(patients, FUN=patientCountOnColumn, product = product, interval=interval, on="Frequency", appendtxt=T)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	227
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	228 cat("<tr><td>Starting Cell Count analysis</td></tr>", file=logfile, append=T)
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	229
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	230 interval = intervalReads
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	231 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	232 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	233 mclapply(patients, FUN=patientCountOnColumn, product = product, interval=interval, on="normalized_read_count")
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	234
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	235 cat("</table></html>", file=logfile, append=T)
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	236
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	237
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	238 tripletAnalysis <- function(patient1, label1, patient2, label2, patient3, label3, product, interval, on, appendTriplets= FALSE){
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	239 onShort = "reads"
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	240 if(on == "Frequency"){
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	241 onShort = "freq"
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	242 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	243 type="triplet"
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	244
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	245 threshholdIndex = which(colnames(product) == "interval")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	246 V_SegmentIndex = which(colnames(product) == "V_Segments")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	247 J_SegmentIndex = which(colnames(product) == "J_Segments")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	248 titleIndex = which(colnames(product) == "Titles")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	249 sampleIndex = which(colnames(patient1) == "Sample")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	250 patientIndex = which(colnames(patient1) == "Patient")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	251 oneSample = paste(patient1[1,sampleIndex], sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	252 twoSample = paste(patient2[1,sampleIndex], sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	253 threeSample = paste(patient3[1,sampleIndex], sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	254
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	255 #patient1$merge = paste(patient1$V_Segment_Major_Gene, patient1$J_Segment_Major_Gene, patient1$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	256 #patient2$merge = paste(patient2$V_Segment_Major_Gene, patient2$J_Segment_Major_Gene, patient2$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	257 #patient3$merge = paste(patient3$V_Segment_Major_Gene, patient3$J_Segment_Major_Gene, patient3$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	258
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	259 patient1$merge = paste(patient1$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	260 patient2$merge = paste(patient2$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	261 patient3$merge = paste(patient3$CDR3_Sense_Sequence)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	262
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	263 patientMerge = merge(patient1, patient2, by="merge")
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	264 patientMerge = merge(patientMerge, patient3, by="merge")
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	265 colnames(patientMerge)[28:length(colnames(patientMerge))] = paste(colnames(patientMerge)[28:length(colnames(patientMerge))], ".z", sep="")
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	266 res1 = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	267 res2 = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	268 res3 = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	269 resAll = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	270 read1Count = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	271 read2Count = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	272 read3Count = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	273
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	274 if(appendTriplets){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	275 cat(paste(label1, label2, label3, sep="\t"), file="triplets.txt", append=T, sep="", fill=3)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	276 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	277 for(iter in 1:length(product[,1])){
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	278 threshhold = product[iter,threshholdIndex]
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	279 V_Segment = paste(".", as.character(product[iter,V_SegmentIndex]), ".", sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	280 J_Segment = paste(".", as.character(product[iter,J_SegmentIndex]), ".", sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	281 all = (grepl(V_Segment, patientMerge$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge$J_Segment_Major_Gene.x) & patientMerge[,paste(on, ".x", sep="")] > threshhold & patientMerge[,paste(on, ".y", sep="")] > threshhold & patientMerge[,paste(on, ".z", sep="")] > threshhold)
10 974febc99fd4 Uploaded davidvanzessen parents: 9 diff changeset	282 one = (grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene) & patient1[,on] > threshhold & !(patient1$CDR3_Sense_Sequence %in% patientMerge[all,]$CDR3_Sense_Sequence.x))
974febc99fd4 Uploaded davidvanzessen parents: 9 diff changeset	283 two = (grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene) & patient2[,on] > threshhold & !(patient2$CDR3_Sense_Sequence %in% patientMerge[all,]$CDR3_Sense_Sequence.x))
974febc99fd4 Uploaded davidvanzessen parents: 9 diff changeset	284 three = (grepl(V_Segment, patient3$V_Segment_Major_Gene) & grepl(J_Segment, patient3$J_Segment_Major_Gene) & patient3[,on] > threshhold & !(patient3$CDR3_Sense_Sequence %in% patientMerge[all,]$CDR3_Sense_Sequence.x))
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	285
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	286 read1Count = append(read1Count, sum(patient1[one,]$normalized_read_count) + sum(patientMerge[all,]$normalized_read_count.x))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	287 read2Count = append(read2Count, sum(patient2[two,]$normalized_read_count) + sum(patientMerge[all,]$normalized_read_count.y))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	288 read3Count = append(read3Count, sum(patient3[three,]$normalized_read_count) + sum(patientMerge[all,]$normalized_read_count.z))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	289 res1 = append(res1, sum(one))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	290 res2 = append(res2, sum(two))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	291 res3 = append(res3, sum(three))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	292 resAll = append(resAll, sum(all))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	293 #threshhold = 0
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	294 if(threshhold != 0){
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	295 if(sum(one) > 0){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	296 dfOne = patient1[one,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "CDR3_Sense_Sequence", "Related_to_leukemia_clone")]
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	297 colnames(dfOne) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "CDR3 Sequence", "Related_to_leukemia_clone")
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	298 filenameOne = paste(label1, "_", product[iter, titleIndex], "_", threshhold, sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	299 write.table(dfOne, file=paste(filenameOne, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	300 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	301 if(sum(two) > 0){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	302 dfTwo = patient2[two,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "CDR3_Sense_Sequence", "Related_to_leukemia_clone")]
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	303 colnames(dfTwo) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "CDR3 Sequence", "Related_to_leukemia_clone")
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	304 filenameTwo = paste(label2, "_", product[iter, titleIndex], "_", threshhold, sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	305 write.table(dfTwo, file=paste(filenameTwo, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	306 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	307 if(sum(three) > 0){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	308 dfThree = patient3[three,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "CDR3_Sense_Sequence", "Related_to_leukemia_clone")]
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	309 colnames(dfThree) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "CDR3 Sequence", "Related_to_leukemia_clone")
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	310 filenameThree = paste(label3, "_", product[iter, titleIndex], "_", threshhold, sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	311 write.table(dfThree, file=paste(filenameThree, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	312 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	313 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	314 if(sum(all) > 0){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	315 dfAll = patientMerge[all,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "CDR3_Sense_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y", "V_Segment_Major_Gene.z", "J_Segment_Major_Gene.z", "normalized_read_count.z", "Frequency.z", "Related_to_leukemia_clone.z")]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	316 colnames(dfAll) = c(paste("Proximal segment", oneSample), paste("Distal segment", oneSample), paste("Normalized_Read_Count", oneSample), paste("Frequency", oneSample), paste("Related_to_leukemia_clone", oneSample),"CDR3_Sense_Sequence", paste("Proximal segment", twoSample), paste("Distal segment", twoSample), paste("Normalized_Read_Count", twoSample), paste("Frequency", twoSample), paste("Related_to_leukemia_clone", twoSample), paste("Proximal segment", threeSample), paste("Distal segment", threeSample), paste("Normalized_Read_Count", threeSample), paste("Frequency", threeSample), paste("Related_to_leukemia_clone", threeSample))
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	317 filenameAll = paste(label1, "_", label2, "_", label3, "_", product[iter, titleIndex], "_", threshhold, sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	318 write.table(dfAll, file=paste(filenameAll, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	319 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	320 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	321 patientResult = data.frame("Locus"=product$Titles, "J_Segment"=product$J_Segments, "V_Segment"=product$V_Segments, "cut_off_value"=paste(">", product$interval, sep=""), "All"=resAll, "tmp1"=res1, "read_count1" = round(read1Count), "tmp2"=res2, "read_count2"= round(read2Count), "tmp3"=res3, "read_count3"=round(read3Count))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	322 colnames(patientResult)[6] = oneSample
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	323 colnames(patientResult)[8] = twoSample
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	324 colnames(patientResult)[10] = threeSample
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	325
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	326 colnamesBak = colnames(patientResult)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	327 colnames(patientResult) = c("Ig/TCR gene rearrangement type", "Distal Gene segment", "Proximal gene segment", "cut_off_value", "Number of sequences All", paste("Number of sequences", oneSample), paste("Normalized Read Count", oneSample), paste("Number of sequences", twoSample), paste("Normalized Read Count", twoSample), paste("Number of sequences", threeSample), paste("Normalized Read Count", threeSample))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	328 write.table(patientResult, file=paste(label1, "_", label2, "_", label3, "_", onShort, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	329 colnames(patientResult) = colnamesBak
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	330
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	331 patientResult$Locus = factor(patientResult$Locus, Titles)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	332 patientResult$cut_off_value = factor(patientResult$cut_off_value, paste(">", interval, sep=""))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	333
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	334 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "All")])
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	335 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=All), stat='identity', position="dodge", fill="#79c36a")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	336 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	337 plt = plt + geom_text(aes(ymax=max(All), x=cut_off_value,y=All,label=All), angle=90, hjust=0)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	338 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in All")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	339 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	340 png(paste(label1, "_", label2, "_", label3, "_", onShort, "_total_all.png", sep=""), width=1920, height=1080)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	341 print(plt)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	342 dev.off()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	343
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	344 fontSize = 4
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	345
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	346 bak = patientResult
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	347 patientResult = melt(patientResult[,c('Locus','cut_off_value', oneSample, twoSample, threeSample)] ,id.vars=1:2)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	348 patientResult$relativeValue = patientResult$value * 10
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	349 patientResult[patientResult$relativeValue == 0,]$relativeValue = 1
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	350 plt = ggplot(patientResult)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	351 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=relativeValue, fill=variable), stat='identity', position="dodge")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	352 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	353 plt = plt + scale_y_continuous(trans="log", breaks=10^c(0:10), labels=c(0, 10^c(0:9)))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	354 plt = plt + geom_text(data=patientResult[patientResult$variable == oneSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=-0.7, size=fontSize)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	355 plt = plt + geom_text(data=patientResult[patientResult$variable == twoSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=0.4, size=fontSize)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	356 plt = plt + geom_text(data=patientResult[patientResult$variable == threeSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=1.5, size=fontSize)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	357 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in only one sample")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	358 png(paste(label1, "_", label2, "_", label3, "_", onShort, "_indiv_all.png", sep=""), width=1920, height=1080)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	359 print(plt)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	360 dev.off()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	361 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	362
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	363
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	364 triplets$uniqueID = "ID"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	365
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	366 triplets[grepl("16278_Left", triplets$Sample),]$uniqueID = "16278_26402_26759_Left"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	367 triplets[grepl("26402_Left", triplets$Sample),]$uniqueID = "16278_26402_26759_Left"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	368 triplets[grepl("26759_Left", triplets$Sample),]$uniqueID = "16278_26402_26759_Left"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	369
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	370 triplets[grepl("16278_Right", triplets$Sample),]$uniqueID = "16278_26402_26759_Right"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	371 triplets[grepl("26402_Right", triplets$Sample),]$uniqueID = "16278_26402_26759_Right"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	372 triplets[grepl("26759_Right", triplets$Sample),]$uniqueID = "16278_26402_26759_Right"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	373
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	374 triplets[grepl("14696", triplets$Patient),]$uniqueID = "14696"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	375
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	376 triplets = data.frame(data.table(triplets)[, list(Patient=unique(.SD$uniqueID), Clone_Molecule_Count_From_Spikes=sum(.SD$Clone_Molecule_Count_From_Spikes), Log10_Frequency=sum(.SD$Log10_Frequency), Total_Read_Count=sum(.SD$Total_Read_Count), Related_to_leukemia_clone=any(.SD$Related_to_leukemia_clone)), by=c("Sample", "Cell_Count", "J_Segment_Major_Gene", "V_Segment_Major_Gene", "CDR3_Sense_Sequence")])
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	377
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	378 triplets$Frequency = (10^as.numeric(triplets$Log10_Frequency))*100
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	379 triplets$normalized_read_count = round(triplets$Clone_Molecule_Count_From_Spikes / triplets$Cell_Count * 1000000 / 2)
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	380
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	381 interval = intervalReads
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	382 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	383 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	384
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	385 one = triplets[triplets$Sample == "14696_reg_BM",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	386 two = triplets[triplets$Sample == "24536_reg_BM",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	387 three = triplets[triplets$Sample == "24062_reg_BM",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	388 tripletAnalysis(one, "14696_1", two, "14696_2", three, "14696_3", product=product, interval=interval, on="normalized_read_count", T)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	389
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	390 one = triplets[triplets$Sample == "16278_Left",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	391 two = triplets[triplets$Sample == "26402_Left",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	392 three = triplets[triplets$Sample == "26759_Left",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	393 tripletAnalysis(one, "16278_Left", two, "26402_Left", three, "26759_Left", product=product, interval=interval, on="normalized_read_count", T)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	394
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	395 one = triplets[triplets$Sample == "16278_Right",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	396 two = triplets[triplets$Sample == "26402_Right",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	397 three = triplets[triplets$Sample == "26759_Right",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	398 tripletAnalysis(one, "16278_Right", two, "26402_Right", three, "26759_Right", product=product, interval=interval, on="normalized_read_count", T)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	399
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	400
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	401 interval = intervalFreq
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	402 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	403 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	404
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	405 one = triplets[triplets$Sample == "14696_reg_BM",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	406 two = triplets[triplets$Sample == "24536_reg_BM",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	407 three = triplets[triplets$Sample == "24062_reg_BM",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	408 tripletAnalysis(one, "14696_1", two, "14696_2", three, "14696_3", product=product, interval=interval, on="Frequency", F)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	409
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	410 one = triplets[triplets$Sample == "16278_Left",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	411 two = triplets[triplets$Sample == "26402_Left",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	412 three = triplets[triplets$Sample == "26759_Left",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	413 tripletAnalysis(one, "16278_Left", two, "26402_Left", three, "26759_Left", product=product, interval=interval, on="Frequency", F)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	414
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	415 one = triplets[triplets$Sample == "16278_Right",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	416 two = triplets[triplets$Sample == "26402_Right",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	417 three = triplets[triplets$Sample == "26759_Right",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	418 tripletAnalysis(one, "16278_Right", two, "26402_Right", three, "26759_Right", product=product, interval=interval, on="Frequency", F)

Mercurial > repos > davidvanzessen > clonal_sequences_in_paired_samples

annotate RScript.r @ 12:eb5b569b44dd draft