aurora_fastqc_site: 01_evaluation

annotate 01_evaluation_overview.Rmd @ 6:53b851fa90de draft

2.1.1

author	mingchen0919
date	Tue, 13 Mar 2018 11:33:13 -0400
parents	b9c9d1dacda6
children	3f92c10de274

rev	line source
1 645291efd2e7 working version mingchen0919 parents: 0 diff changeset	1 ---
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	2 title: 'Short reads evaluation with [FastQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)'
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	3 output:
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	4 html_document:
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	5 number_sections: true
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	6 toc: true
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	7 theme: cosmo
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	8 highlight: tango
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	9 ---
0 f74fdae99053 planemo upload mingchen0919 parents: diff changeset	10
1 645291efd2e7 working version mingchen0919 parents: 0 diff changeset	11 ```{r setup, include=FALSE, warning=FALSE, message=FALSE}
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	12 knitr::opts_chunk$set(
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	13 echo = as.logical(opt$X_e),
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	14 error = TRUE,
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	15 eval = TRUE
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	16 )
645291efd2e7 working version mingchen0919 parents: 0 diff changeset	17 ```
0 f74fdae99053 planemo upload mingchen0919 parents: diff changeset	18
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	19 # Run FastQC
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	20
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	21 ```{bash eval=TRUE,echo=FALSE}
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	22 cd ${X_d}
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	23 cp ${X_r} ${X_d}/read_1.fq
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	24 cp ${X_R} ${X_d}/read_2.fq
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	25
6 53b851fa90de 2.1.1 mingchen0919 parents: 3 diff changeset	26 mkdir -p read_1 read_2
0 f74fdae99053 planemo upload mingchen0919 parents: diff changeset	27 cat >temp.sh <<EOL
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	28 fastqc \\
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	29 -q \\
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	30 -c ${X_c} \\
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	31 -l ${X_l} \\
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	32 ${X_d}/read_1.fq > /dev/null 2>&1
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	33
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	34 fastqc \\
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	35 -q \\
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	36 -c ${X_c} \\
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	37 -l ${X_l} \\
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	38 ${X_d}/read_2.fq > /dev/null 2>&1
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	39 EOL
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	40
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	41 grep -v None temp.sh > fastqc.sh
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	42
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	43 # run fastqc
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	44 sh fastqc.sh
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	45
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	46 # unzip outputs
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	47 unzip -q read_1_fastqc.zip
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	48 unzip -q read_2_fastqc.zip
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	49 ```
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	50
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	51 ```{r}
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	52 # display fastqc job script
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	53 fastqc_sh = paste0(opt$X_d, '/fastqc.sh')
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	54 tags$code(tags$pre(readChar(fastqc_sh, file.info(fastqc_sh)$size )))
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	55 ```
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	56
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	57 # Raw FastQC reports
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	58
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	59 ## Before trimming
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	60 ```{r eval=TRUE}
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	61 ori_html = tags$a(href = 'read_1_fastqc/fastqc_report.html', opt$X_n)
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	62 ori_fastqc_data = tags$a(href = 'read_1_fastqc/fastqc_data.txt', 'fastqc_data.txt')
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	63 ori_summary = tags$a(href = 'read_1_fastqc/summary.txt', 'summary.txt')
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	64 tags$ul(
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	65 tags$li(ori_html),
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	66 tags$li(ori_fastqc_data),
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	67 tags$li(ori_summary)
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	68 )
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	69 ```
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	70
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	71 ## After trimming
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	72 ```{r eval=TRUE}
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	73 ori_html = tags$a(href = 'read_2_fastqc/fastqc_report.html', opt$X_n)
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	74 ori_fastqc_data = tags$a(href = 'read_2_fastqc/fastqc_data.txt', 'fastqc_data.txt')
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	75 ori_summary = tags$a(href = 'read_2_fastqc/summary.txt', 'summary.txt')
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	76 tags$ul(
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	77 tags$li(ori_html),
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	78 tags$li(ori_fastqc_data),
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	79 tags$li(ori_summary)
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	80 )
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	81 ```
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	82
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	83
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	84 # Fastqc Output Visualization
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	85
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	86 ## Overview
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	87
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	88 ```{r eval=TRUE}
3 b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	89 read_1_summary = read.csv(paste0(opt$X_d, '/read_1_fastqc/summary.txt'),
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	90 stringsAsFactors = FALSE,
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	91 header = FALSE, sep = '\t')[, 2:1]
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	92 read_2_summary = read.csv(paste0(opt$X_d, '/read_2_fastqc/summary.txt'),
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	93 stringsAsFactors = FALSE,
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	94 header = FALSE, sep = '\t')[, 1]
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	95 combined_summary = data.frame(read_1_summary, read_2_summary, stringsAsFactors = FALSE)
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	96 names(combined_summary) = c('MODULE', 'Pre-trimming', 'Post-trimming')
0 f74fdae99053 planemo upload mingchen0919 parents: diff changeset	97 combined_summary[combined_summary == 'FAIL'] = 'FAIL (X)'
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	98 combined_summary[combined_summary == 'WARN'] = 'WARN (!)'
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	99 knitr::kable(combined_summary)
f74fdae99053 planemo upload mingchen0919 parents: diff changeset	100 ```
3 b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	101
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	102 ```{r 'function definition', echo=FALSE}
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	103 extract_data_module = function(fastqc_data, module_name, header = TRUE, comment.char = "") {
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	104 f = readLines(fastqc_data)
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	105 start_line = grep(module_name, f)
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	106 end_module_lines = grep('END_MODULE', f)
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	107 end_line = end_module_lines[which(end_module_lines > start_line)[1]]
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	108 module_data = f[(start_line+1):(end_line-1)]
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	109 writeLines(module_data, '/tmp/temp.txt')
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	110 read.csv('/tmp/temp.txt', sep = '\t', header = header, comment.char = comment.char)
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	111 }
b9c9d1dacda6 reformat code mingchen0919 parents: 1 diff changeset	112 ```

Mercurial > repos > mingchen0919 > aurora_fastqc_site

annotate 01_evaluation_overview.Rmd @ 6:53b851fa90de draft