Mercurial > repos > public-health-bioinformatics > fastp_json_to_tabular

#!/usr/bin/env python

import argparse
import json

def main(args):
    with open(args.fastp_json, 'r') as f:
        fastp_report = json.load(f)

    total_reads_before_filtering = fastp_report['summary']['before_filtering']['total_reads']
    total_reads_after_filtering = fastp_report['summary']['after_filtering']['total_reads']
    total_bases_before_filtering = fastp_report['summary']['before_filtering']['total_bases']
    total_bases_after_filtering = fastp_report['summary']['after_filtering']['total_bases']
    read1_mean_length_before_filtering = fastp_report['summary']['before_filtering']['read1_mean_length']
    read2_mean_length_before_filtering = fastp_report['summary']['before_filtering']['read2_mean_length']
    read1_mean_length_after_filtering = fastp_report['summary']['after_filtering']['read1_mean_length']
    read2_mean_length_after_filtering = fastp_report['summary']['after_filtering']['read2_mean_length']
    q20_bases_before_filtering = fastp_report['summary']['before_filtering']['q20_bases']
    q20_bases_after_filtering = fastp_report['summary']['after_filtering']['q20_bases']
    q20_rate_before_filtering = fastp_report['summary']['before_filtering']['q20_rate']
    q20_rate_after_filtering = fastp_report['summary']['after_filtering']['q20_rate']
    q30_bases_before_filtering = fastp_report['summary']['before_filtering']['q30_bases']
    q30_bases_after_filtering = fastp_report['summary']['after_filtering']['q30_bases']
    q30_rate_before_filtering = fastp_report['summary']['before_filtering']['q30_rate']
    q30_rate_after_filtering = fastp_report['summary']['after_filtering']['q30_rate']
    gc_content_before_filtering = fastp_report['summary']['before_filtering']['gc_content']
    gc_content_after_filtering = fastp_report['summary']['after_filtering']['gc_content']
    adapter_trimmed_reads = fastp_report['adapter_cutting']['adapter_trimmed_reads']
    adapter_trimmed_bases = fastp_report['adapter_cutting']['adapter_trimmed_bases']


    output_fields = [
        'total_reads_before_filtering',
        'total_reads_after_filtering',
        'total_bases_before_filtering',
        'total_bases_after_filtering',
        'read1_mean_length_before_filtering',
        'read1_mean_length_after_filtering',
        'read2_mean_length_before_filtering',
        'read2_mean_length_after_filtering',
        'q20_bases_before_filtering',
        'q20_bases_after_filtering',
        'q20_rate_before_filtering',
        'q20_rate_after_filtering',
        'q30_bases_before_filtering',
        'q30_bases_after_filtering',
        'q30_rate_before_filtering',
        'q30_rate_after_filtering',
        'gc_content_before_filtering',
        'gc_content_after_filtering',
        'adapter_trimmed_reads',
        'adapter_trimmed_bases',
    ]

    output_data = []
    if args.sample_id:
        output_fields = ['sample_id'] + output_fields
        output_data = [args.sample_id]

    print(args.delimiter.join(output_fields))

    output_data = output_data + [
        total_reads_before_filtering,
        total_reads_after_filtering,
        total_bases_before_filtering,
        total_bases_after_filtering,
        read1_mean_length_before_filtering,
        read1_mean_length_after_filtering,
        read2_mean_length_before_filtering,
        read2_mean_length_after_filtering,
        q20_bases_before_filtering,
        q20_bases_after_filtering,
        q20_rate_before_filtering,
        q20_rate_after_filtering,
        q30_bases_before_filtering,
        q30_bases_after_filtering,
        q30_rate_before_filtering,
        q30_rate_after_filtering,
        gc_content_before_filtering,
        gc_content_after_filtering,
        adapter_trimmed_reads,
        adapter_trimmed_bases,
    ]
    print(args.delimiter.join(map(str, output_data)))


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('fastp_json')
    parser.add_argument('-s', '--sample-id')
    parser.add_argument('-d', '--delimiter', default='\t')
    args = parser.parse_args()
    main(args)
author	public-health-bioinformatics
date	Wed, 09 Mar 2022 23:40:04 +0000
parents
children	e342bf27e717