bctools: merge_pcr_duplicates.py annotate

annotate merge_pcr_duplicates.py @ 4:d03c001f7c73 draft

Uploaded

author	rnateam
date	Thu, 22 Oct 2015 10:42:54 -0400
parents	de4ea3aa1090
children	17ef0e0dae68

rev	line source
2 de4ea3aa1090 Uploaded rnateam parents: diff changeset	1 #!/usr/bin/env python
de4ea3aa1090 Uploaded rnateam parents: diff changeset	2
de4ea3aa1090 Uploaded rnateam parents: diff changeset	3 tool_description = """
de4ea3aa1090 Uploaded rnateam parents: diff changeset	4 Merge PCR duplicates according to random barcode library.
de4ea3aa1090 Uploaded rnateam parents: diff changeset	5
de4ea3aa1090 Uploaded rnateam parents: diff changeset	6 Barcodes containing uncalled base 'N' are removed. By default output is written
de4ea3aa1090 Uploaded rnateam parents: diff changeset	7 to stdout.
de4ea3aa1090 Uploaded rnateam parents: diff changeset	8
de4ea3aa1090 Uploaded rnateam parents: diff changeset	9 Input:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	10 * bed6 file containing alignments with fastq read-id in name field
de4ea3aa1090 Uploaded rnateam parents: diff changeset	11 * fasta library with fastq read-id as sequence ids
de4ea3aa1090 Uploaded rnateam parents: diff changeset	12
de4ea3aa1090 Uploaded rnateam parents: diff changeset	13 Output:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	14 * bed6 file with random barcode in name field and number of PCR duplicates as
de4ea3aa1090 Uploaded rnateam parents: diff changeset	15 score, sorted by fields chrom, start, stop, strand, name
de4ea3aa1090 Uploaded rnateam parents: diff changeset	16
de4ea3aa1090 Uploaded rnateam parents: diff changeset	17 Example usage:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	18 - read PCR duplicates from file duplicates.bed and write merged results to file
de4ea3aa1090 Uploaded rnateam parents: diff changeset	19 merged.bed:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	20 merge_pcr_duplicates.py duplicates.bed bclibrary.fa --out merged.bed
de4ea3aa1090 Uploaded rnateam parents: diff changeset	21 """
de4ea3aa1090 Uploaded rnateam parents: diff changeset	22
de4ea3aa1090 Uploaded rnateam parents: diff changeset	23 epilog = """
de4ea3aa1090 Uploaded rnateam parents: diff changeset	24 Author: Daniel Maticzka
de4ea3aa1090 Uploaded rnateam parents: diff changeset	25 Copyright: 2015
de4ea3aa1090 Uploaded rnateam parents: diff changeset	26 License: Apache
de4ea3aa1090 Uploaded rnateam parents: diff changeset	27 Email: maticzkd@informatik.uni-freiburg.de
de4ea3aa1090 Uploaded rnateam parents: diff changeset	28 Status: Testing
de4ea3aa1090 Uploaded rnateam parents: diff changeset	29 """
de4ea3aa1090 Uploaded rnateam parents: diff changeset	30
de4ea3aa1090 Uploaded rnateam parents: diff changeset	31 import argparse
de4ea3aa1090 Uploaded rnateam parents: diff changeset	32 import logging
de4ea3aa1090 Uploaded rnateam parents: diff changeset	33 from sys import stdout
de4ea3aa1090 Uploaded rnateam parents: diff changeset	34 from Bio import SeqIO
de4ea3aa1090 Uploaded rnateam parents: diff changeset	35 import pandas as pd
de4ea3aa1090 Uploaded rnateam parents: diff changeset	36
de4ea3aa1090 Uploaded rnateam parents: diff changeset	37 # avoid ugly python IOError when stdout output is piped into another program
de4ea3aa1090 Uploaded rnateam parents: diff changeset	38 # and then truncated (such as piping to head)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	39 from signal import signal, SIGPIPE, SIG_DFL
de4ea3aa1090 Uploaded rnateam parents: diff changeset	40 signal(SIGPIPE, SIG_DFL)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	41
de4ea3aa1090 Uploaded rnateam parents: diff changeset	42
de4ea3aa1090 Uploaded rnateam parents: diff changeset	43 def fasta_tuple_generator(fasta_iterator):
de4ea3aa1090 Uploaded rnateam parents: diff changeset	44 "Yields id, sequence tuples given an iterator over Biopython SeqIO objects."
de4ea3aa1090 Uploaded rnateam parents: diff changeset	45 for record in input_seq_iterator:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	46 yield (record.id, str(record.seq))
de4ea3aa1090 Uploaded rnateam parents: diff changeset	47
de4ea3aa1090 Uploaded rnateam parents: diff changeset	48
de4ea3aa1090 Uploaded rnateam parents: diff changeset	49 # parse command line arguments
de4ea3aa1090 Uploaded rnateam parents: diff changeset	50 parser = argparse.ArgumentParser(description=tool_description,
de4ea3aa1090 Uploaded rnateam parents: diff changeset	51 epilog=epilog,
de4ea3aa1090 Uploaded rnateam parents: diff changeset	52 formatter_class=argparse.RawDescriptionHelpFormatter)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	53 # positional arguments
de4ea3aa1090 Uploaded rnateam parents: diff changeset	54 parser.add_argument(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	55 "alignments",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	56 help="Path to bed6 file containing alignments.")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	57 parser.add_argument(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	58 "bclib",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	59 help="Path to fasta barcode library.")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	60 # optional arguments
de4ea3aa1090 Uploaded rnateam parents: diff changeset	61 parser.add_argument(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	62 "-o", "--outfile",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	63 help="Write results to this file.")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	64 # misc arguments
de4ea3aa1090 Uploaded rnateam parents: diff changeset	65 parser.add_argument(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	66 "-v", "--verbose",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	67 help="Be verbose.",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	68 action="store_true")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	69 parser.add_argument(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	70 "-d", "--debug",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	71 help="Print lots of debugging information",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	72 action="store_true")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	73 parser.add_argument(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	74 '--version',
de4ea3aa1090 Uploaded rnateam parents: diff changeset	75 action='version',
de4ea3aa1090 Uploaded rnateam parents: diff changeset	76 version='0.1.0')
de4ea3aa1090 Uploaded rnateam parents: diff changeset	77
de4ea3aa1090 Uploaded rnateam parents: diff changeset	78 args = parser.parse_args()
de4ea3aa1090 Uploaded rnateam parents: diff changeset	79
de4ea3aa1090 Uploaded rnateam parents: diff changeset	80 if args.debug:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	81 logging.basicConfig(level=logging.DEBUG, format="%(asctime)s - %(filename)s - %(levelname)s - %(message)s")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	82 elif args.verbose:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	83 logging.basicConfig(level=logging.INFO, format="%(filename)s - %(levelname)s - %(message)s")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	84 else:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	85 logging.basicConfig(format="%(filename)s - %(levelname)s - %(message)s")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	86 logging.info("Parsed arguments:")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	87 logging.info(" alignments: '{}'".format(args.alignments))
de4ea3aa1090 Uploaded rnateam parents: diff changeset	88 logging.info(" bclib: '{}'".format(args.bclib))
de4ea3aa1090 Uploaded rnateam parents: diff changeset	89 if args.outfile:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	90 logging.info(" outfile: enabled writing to file")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	91 logging.info(" outfile: '{}'".format(args.outfile))
de4ea3aa1090 Uploaded rnateam parents: diff changeset	92 logging.info("")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	93
de4ea3aa1090 Uploaded rnateam parents: diff changeset	94 # load barcode library into dictionary
de4ea3aa1090 Uploaded rnateam parents: diff changeset	95 input_handle = open(args.bclib, "rU")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	96 input_seq_iterator = SeqIO.parse(input_handle, "fasta")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	97 bcs = pd.DataFrame.from_records(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	98 data=fasta_tuple_generator(input_seq_iterator),
de4ea3aa1090 Uploaded rnateam parents: diff changeset	99 columns=["read_id", "bc"])
de4ea3aa1090 Uploaded rnateam parents: diff changeset	100
de4ea3aa1090 Uploaded rnateam parents: diff changeset	101 # load alignments
de4ea3aa1090 Uploaded rnateam parents: diff changeset	102 alns = pd.read_csv(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	103 args.alignments,
de4ea3aa1090 Uploaded rnateam parents: diff changeset	104 sep="\t",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	105 names=["chrom", "start", "stop", "read_id", "score", "strand"])
de4ea3aa1090 Uploaded rnateam parents: diff changeset	106
de4ea3aa1090 Uploaded rnateam parents: diff changeset	107 # combine barcode library and alignments
de4ea3aa1090 Uploaded rnateam parents: diff changeset	108 bcalib = pd.merge(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	109 bcs, alns,
de4ea3aa1090 Uploaded rnateam parents: diff changeset	110 on="read_id",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	111 how="inner",
de4ea3aa1090 Uploaded rnateam parents: diff changeset	112 sort=False)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	113 if bcalib.empty:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	114 raise Exception("ERROR: no common entries for alignments and barcode library found. Please check your input files.")
de4ea3aa1090 Uploaded rnateam parents: diff changeset	115 n_alns = len(alns.index)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	116 n_bcalib = len(bcalib.index)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	117 if n_bcalib < n_alns:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	118 logging.warning(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	119 "{} of {} alignments could not be associated with a random barcode.".format(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	120 n_alns - n_bcalib, n_alns))
de4ea3aa1090 Uploaded rnateam parents: diff changeset	121
de4ea3aa1090 Uploaded rnateam parents: diff changeset	122 # remove entries with barcodes that has uncalled base N
de4ea3aa1090 Uploaded rnateam parents: diff changeset	123 bcalib_cleaned = bcalib.drop(bcalib[bcalib.bc.str.contains("N")].index)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	124 n_bcalib_cleaned = len(bcalib_cleaned)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	125 if n_bcalib_cleaned < n_bcalib:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	126 msg = "{} of {} alignments had random barcodes containing uncalled bases and were dropped.".format(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	127 n_bcalib - n_bcalib_cleaned, n_bcalib)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	128 if n_bcalib_cleaned < (0.8 * n_bcalib):
de4ea3aa1090 Uploaded rnateam parents: diff changeset	129 logging.warning(msg)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	130 else:
de4ea3aa1090 Uploaded rnateam parents: diff changeset	131 logging.info(msg)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	132
de4ea3aa1090 Uploaded rnateam parents: diff changeset	133 # count and merge pcr duplicates
de4ea3aa1090 Uploaded rnateam parents: diff changeset	134 # grouping sorts by keys, so the ouput will be properly sorted
de4ea3aa1090 Uploaded rnateam parents: diff changeset	135 merged = bcalib_cleaned.groupby(['chrom', 'start', 'stop', 'strand', 'bc']).size().reset_index()
de4ea3aa1090 Uploaded rnateam parents: diff changeset	136 merged.rename(columns={0: 'ndupes'}, copy=False, inplace=True)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	137
de4ea3aa1090 Uploaded rnateam parents: diff changeset	138 # write coordinates of crosslinking event alignments
de4ea3aa1090 Uploaded rnateam parents: diff changeset	139 eventalnout = (open(args.outfile, "w") if args.outfile is not None else stdout)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	140 merged.to_csv(
de4ea3aa1090 Uploaded rnateam parents: diff changeset	141 eventalnout,
de4ea3aa1090 Uploaded rnateam parents: diff changeset	142 columns=['chrom', 'start', 'stop', 'bc', 'ndupes', 'strand'],
de4ea3aa1090 Uploaded rnateam parents: diff changeset	143 sep="\t", index=False, header=False)
de4ea3aa1090 Uploaded rnateam parents: diff changeset	144 eventalnout.close()

Mercurial > repos > rnateam > bctools

annotate merge_pcr_duplicates.py @ 4:d03c001f7c73 draft