align_back_trans: align_back

annotate align_back_trans.py @ 12:28459eecd18c draft

Deleted selected files

author	jasper
date	Fri, 03 Feb 2017 13:45:14 -0500
parents	526c3f268982
children

rev	line source
0 526c3f268982 Uploaded jasper parents: diff changeset	1 #!/usr/bin/env python
526c3f268982 Uploaded jasper parents: diff changeset	2 """Back-translate a protein alignment to nucleotides
526c3f268982 Uploaded jasper parents: diff changeset	3
526c3f268982 Uploaded jasper parents: diff changeset	4 This tool is a short Python script (using Biopython library functions) to
526c3f268982 Uploaded jasper parents: diff changeset	5 load a protein alignment, and matching nucleotide FASTA file of unaligned
526c3f268982 Uploaded jasper parents: diff changeset	6 sequences, in order to produce a codon aware nucleotide alignment - which
526c3f268982 Uploaded jasper parents: diff changeset	7 can be viewed as a back translation.
526c3f268982 Uploaded jasper parents: diff changeset	8
526c3f268982 Uploaded jasper parents: diff changeset	9 The development repository for this tool is here:
526c3f268982 Uploaded jasper parents: diff changeset	10
526c3f268982 Uploaded jasper parents: diff changeset	11 * https://github.com/peterjc/pico_galaxy/tree/master/tools/align_back_trans
526c3f268982 Uploaded jasper parents: diff changeset	12
526c3f268982 Uploaded jasper parents: diff changeset	13 This tool is available with a Galaxy wrapper from the Galaxy Tool Shed at:
526c3f268982 Uploaded jasper parents: diff changeset	14
526c3f268982 Uploaded jasper parents: diff changeset	15 * http://toolshed.g2.bx.psu.edu/view/peterjc/align_back_trans
526c3f268982 Uploaded jasper parents: diff changeset	16
526c3f268982 Uploaded jasper parents: diff changeset	17 See accompanying text file for licence details (MIT licence).
526c3f268982 Uploaded jasper parents: diff changeset	18 """
526c3f268982 Uploaded jasper parents: diff changeset	19
526c3f268982 Uploaded jasper parents: diff changeset	20 import sys
526c3f268982 Uploaded jasper parents: diff changeset	21 from Bio.Seq import Seq
526c3f268982 Uploaded jasper parents: diff changeset	22 from Bio.Alphabet import generic_dna, generic_protein
526c3f268982 Uploaded jasper parents: diff changeset	23 from Bio.Align import MultipleSeqAlignment
526c3f268982 Uploaded jasper parents: diff changeset	24 from Bio import SeqIO
526c3f268982 Uploaded jasper parents: diff changeset	25 from Bio import AlignIO
526c3f268982 Uploaded jasper parents: diff changeset	26 from Bio.Data.CodonTable import ambiguous_generic_by_id
526c3f268982 Uploaded jasper parents: diff changeset	27
526c3f268982 Uploaded jasper parents: diff changeset	28 if "-v" in sys.argv or "--version" in sys.argv:
526c3f268982 Uploaded jasper parents: diff changeset	29 print "v0.0.5"
526c3f268982 Uploaded jasper parents: diff changeset	30 sys.exit(0)
526c3f268982 Uploaded jasper parents: diff changeset	31
526c3f268982 Uploaded jasper parents: diff changeset	32 def sys_exit(msg, error_level=1):
526c3f268982 Uploaded jasper parents: diff changeset	33 """Print error message to stdout and quit with given error level."""
526c3f268982 Uploaded jasper parents: diff changeset	34 sys.stderr.write("%s\n" % msg)
526c3f268982 Uploaded jasper parents: diff changeset	35 sys.exit(error_level)
526c3f268982 Uploaded jasper parents: diff changeset	36
526c3f268982 Uploaded jasper parents: diff changeset	37 def check_trans(identifier, nuc, prot, table):
526c3f268982 Uploaded jasper parents: diff changeset	38 """Returns nucleotide sequence if works (can remove trailing stop)"""
526c3f268982 Uploaded jasper parents: diff changeset	39 if len(nuc) % 3:
526c3f268982 Uploaded jasper parents: diff changeset	40 sys_exit("Nucleotide sequence for %s is length %i (not a multiple of three)"
526c3f268982 Uploaded jasper parents: diff changeset	41 % (identifier, len(nuc)))
526c3f268982 Uploaded jasper parents: diff changeset	42
526c3f268982 Uploaded jasper parents: diff changeset	43 p = str(prot).upper().replace("*", "X")
526c3f268982 Uploaded jasper parents: diff changeset	44 t = str(nuc.translate(table)).upper().replace("*", "X")
526c3f268982 Uploaded jasper parents: diff changeset	45 if len(t) == len(p) + 1:
526c3f268982 Uploaded jasper parents: diff changeset	46 if str(nuc)[-3:].upper() in ambiguous_generic_by_id[table].stop_codons:
526c3f268982 Uploaded jasper parents: diff changeset	47 #Allow this...
526c3f268982 Uploaded jasper parents: diff changeset	48 t = t[:-1]
526c3f268982 Uploaded jasper parents: diff changeset	49 nuc = nuc[:-3] #edit return value
526c3f268982 Uploaded jasper parents: diff changeset	50 if len(t) != len(p):
526c3f268982 Uploaded jasper parents: diff changeset	51 err = ("Inconsistent lengths for %s, ungapped protein %i, "
526c3f268982 Uploaded jasper parents: diff changeset	52 "tripled %i vs ungapped nucleotide %i." %
526c3f268982 Uploaded jasper parents: diff changeset	53 (identifier, len(p), len(p) * 3, len(nuc)))
526c3f268982 Uploaded jasper parents: diff changeset	54 if t.endswith(p):
526c3f268982 Uploaded jasper parents: diff changeset	55 err += "\nThere are %i extra nucleotides at the start." % (len(t) - len(p))
526c3f268982 Uploaded jasper parents: diff changeset	56 elif t.startswith(p):
526c3f268982 Uploaded jasper parents: diff changeset	57 err += "\nThere are %i extra nucleotides at the end." % (len(t) - len(p))
526c3f268982 Uploaded jasper parents: diff changeset	58 elif p in t:
526c3f268982 Uploaded jasper parents: diff changeset	59 #TODO - Calculate and report the number to trim at start and end?
526c3f268982 Uploaded jasper parents: diff changeset	60 err += "\nHowever, protein sequence found within translated nucleotides."
526c3f268982 Uploaded jasper parents: diff changeset	61 elif p[1:] in t:
526c3f268982 Uploaded jasper parents: diff changeset	62 err += "\nHowever, ignoring first amino acid, protein sequence found within translated nucleotides."
526c3f268982 Uploaded jasper parents: diff changeset	63 sys_exit(err)
526c3f268982 Uploaded jasper parents: diff changeset	64
526c3f268982 Uploaded jasper parents: diff changeset	65
526c3f268982 Uploaded jasper parents: diff changeset	66 if t == p:
526c3f268982 Uploaded jasper parents: diff changeset	67 return nuc
526c3f268982 Uploaded jasper parents: diff changeset	68 elif p.startswith("M") and "M" + t[1:] == p:
526c3f268982 Uploaded jasper parents: diff changeset	69 #Close, was there a start codon?
526c3f268982 Uploaded jasper parents: diff changeset	70 if str(nuc[0:3]).upper() in ambiguous_generic_by_id[table].start_codons:
526c3f268982 Uploaded jasper parents: diff changeset	71 return nuc
526c3f268982 Uploaded jasper parents: diff changeset	72 else:
526c3f268982 Uploaded jasper parents: diff changeset	73 sys_exit("Translation check failed for %s\n"
526c3f268982 Uploaded jasper parents: diff changeset	74 "Would match if %s was a start codon (check correct table used)\n"
526c3f268982 Uploaded jasper parents: diff changeset	75 % (identifier, nuc[0:3].upper()))
526c3f268982 Uploaded jasper parents: diff changeset	76 else:
526c3f268982 Uploaded jasper parents: diff changeset	77 #Allow * vs X here? e.g. internal stop codons
526c3f268982 Uploaded jasper parents: diff changeset	78 m = "".join("." if x==y else "!" for (x,y) in zip(p,t))
526c3f268982 Uploaded jasper parents: diff changeset	79 if len(prot) < 70:
526c3f268982 Uploaded jasper parents: diff changeset	80 sys.stderr.write("Protein: %s\n" % p)
526c3f268982 Uploaded jasper parents: diff changeset	81 sys.stderr.write(" %s\n" % m)
526c3f268982 Uploaded jasper parents: diff changeset	82 sys.stderr.write("Translation: %s\n" % t)
526c3f268982 Uploaded jasper parents: diff changeset	83 else:
526c3f268982 Uploaded jasper parents: diff changeset	84 for offset in range(0, len(p), 60):
526c3f268982 Uploaded jasper parents: diff changeset	85 sys.stderr.write("Protein: %s\n" % p[offset:offset+60])
526c3f268982 Uploaded jasper parents: diff changeset	86 sys.stderr.write(" %s\n" % m[offset:offset+60])
526c3f268982 Uploaded jasper parents: diff changeset	87 sys.stderr.write("Translation: %s\n\n" % t[offset:offset+60])
526c3f268982 Uploaded jasper parents: diff changeset	88 sys_exit("Translation check failed for %s\n" % identifier)
526c3f268982 Uploaded jasper parents: diff changeset	89
526c3f268982 Uploaded jasper parents: diff changeset	90 def sequence_back_translate(aligned_protein_record, unaligned_nucleotide_record, gap, table=0):
526c3f268982 Uploaded jasper parents: diff changeset	91 #TODO - Separate arguments for protein gap and nucleotide gap?
526c3f268982 Uploaded jasper parents: diff changeset	92 if not gap or len(gap) != 1:
526c3f268982 Uploaded jasper parents: diff changeset	93 raise ValueError("Please supply a single gap character")
526c3f268982 Uploaded jasper parents: diff changeset	94
526c3f268982 Uploaded jasper parents: diff changeset	95 alpha = unaligned_nucleotide_record.seq.alphabet
526c3f268982 Uploaded jasper parents: diff changeset	96 if hasattr(alpha, "gap_char"):
526c3f268982 Uploaded jasper parents: diff changeset	97 gap_codon = alpha.gap_char * 3
526c3f268982 Uploaded jasper parents: diff changeset	98 assert len(gap_codon) == 3
526c3f268982 Uploaded jasper parents: diff changeset	99 else:
526c3f268982 Uploaded jasper parents: diff changeset	100 from Bio.Alphabet import Gapped
526c3f268982 Uploaded jasper parents: diff changeset	101 alpha = Gapped(alpha, gap)
526c3f268982 Uploaded jasper parents: diff changeset	102 gap_codon = gap*3
526c3f268982 Uploaded jasper parents: diff changeset	103
526c3f268982 Uploaded jasper parents: diff changeset	104 ungapped_protein = aligned_protein_record.seq.ungap(gap)
526c3f268982 Uploaded jasper parents: diff changeset	105 ungapped_nucleotide = unaligned_nucleotide_record.seq
526c3f268982 Uploaded jasper parents: diff changeset	106 if table:
526c3f268982 Uploaded jasper parents: diff changeset	107 ungapped_nucleotide = check_trans(aligned_protein_record.id, ungapped_nucleotide, ungapped_protein, table)
526c3f268982 Uploaded jasper parents: diff changeset	108 elif len(ungapped_protein) * 3 != len(ungapped_nucleotide):
526c3f268982 Uploaded jasper parents: diff changeset	109 sys_exit("Inconsistent lengths for %s, ungapped protein %i, "
526c3f268982 Uploaded jasper parents: diff changeset	110 "tripled %i vs ungapped nucleotide %i" %
526c3f268982 Uploaded jasper parents: diff changeset	111 (aligned_protein_record.id,
526c3f268982 Uploaded jasper parents: diff changeset	112 len(ungapped_protein),
526c3f268982 Uploaded jasper parents: diff changeset	113 len(ungapped_protein) * 3,
526c3f268982 Uploaded jasper parents: diff changeset	114 len(ungapped_nucleotide)))
526c3f268982 Uploaded jasper parents: diff changeset	115
526c3f268982 Uploaded jasper parents: diff changeset	116 seq = []
526c3f268982 Uploaded jasper parents: diff changeset	117 nuc = str(ungapped_nucleotide)
526c3f268982 Uploaded jasper parents: diff changeset	118 for amino_acid in aligned_protein_record.seq:
526c3f268982 Uploaded jasper parents: diff changeset	119 if amino_acid == gap:
526c3f268982 Uploaded jasper parents: diff changeset	120 seq.append(gap_codon)
526c3f268982 Uploaded jasper parents: diff changeset	121 else:
526c3f268982 Uploaded jasper parents: diff changeset	122 seq.append(nuc[:3])
526c3f268982 Uploaded jasper parents: diff changeset	123 nuc = nuc[3:]
526c3f268982 Uploaded jasper parents: diff changeset	124 assert not nuc, "Nucleotide sequence for %r longer than protein %r" \
526c3f268982 Uploaded jasper parents: diff changeset	125 % (unaligned_nucleotide_record.id, aligned_protein_record.id)
526c3f268982 Uploaded jasper parents: diff changeset	126
526c3f268982 Uploaded jasper parents: diff changeset	127 aligned_nuc = unaligned_nucleotide_record[:] #copy for most annotation
526c3f268982 Uploaded jasper parents: diff changeset	128 aligned_nuc.letter_annotation = {} #clear this
526c3f268982 Uploaded jasper parents: diff changeset	129 aligned_nuc.seq = Seq("".join(seq), alpha) #replace this
526c3f268982 Uploaded jasper parents: diff changeset	130 assert len(aligned_protein_record.seq) * 3 == len(aligned_nuc)
526c3f268982 Uploaded jasper parents: diff changeset	131 return aligned_nuc
526c3f268982 Uploaded jasper parents: diff changeset	132
526c3f268982 Uploaded jasper parents: diff changeset	133 def alignment_back_translate(protein_alignment, nucleotide_records, key_function=None, gap=None, table=0):
526c3f268982 Uploaded jasper parents: diff changeset	134 """Thread nucleotide sequences onto a protein alignment."""
526c3f268982 Uploaded jasper parents: diff changeset	135 #TODO - Separate arguments for protein and nucleotide gap characters?
526c3f268982 Uploaded jasper parents: diff changeset	136 if key_function is None:
526c3f268982 Uploaded jasper parents: diff changeset	137 key_function = lambda x: x
526c3f268982 Uploaded jasper parents: diff changeset	138 if gap is None:
526c3f268982 Uploaded jasper parents: diff changeset	139 gap = "-"
526c3f268982 Uploaded jasper parents: diff changeset	140
526c3f268982 Uploaded jasper parents: diff changeset	141 aligned = []
526c3f268982 Uploaded jasper parents: diff changeset	142 for protein in protein_alignment:
526c3f268982 Uploaded jasper parents: diff changeset	143 protein.id = protein.id[:-2]
526c3f268982 Uploaded jasper parents: diff changeset	144 try:
526c3f268982 Uploaded jasper parents: diff changeset	145 nucleotide = nucleotide_records[key_function(protein.id)]
526c3f268982 Uploaded jasper parents: diff changeset	146 except KeyError:
526c3f268982 Uploaded jasper parents: diff changeset	147 raise ValueError("Could not find nucleotide sequence for protein %r" \
526c3f268982 Uploaded jasper parents: diff changeset	148 % protein.id)
526c3f268982 Uploaded jasper parents: diff changeset	149 aligned.append(sequence_back_translate(protein, nucleotide, gap, table))
526c3f268982 Uploaded jasper parents: diff changeset	150 return MultipleSeqAlignment(aligned)
526c3f268982 Uploaded jasper parents: diff changeset	151
526c3f268982 Uploaded jasper parents: diff changeset	152
526c3f268982 Uploaded jasper parents: diff changeset	153 if len(sys.argv) == 4:
526c3f268982 Uploaded jasper parents: diff changeset	154 align_format, prot_align_file, nuc_fasta_file = sys.argv[1:]
526c3f268982 Uploaded jasper parents: diff changeset	155 nuc_align_file = sys.stdout
526c3f268982 Uploaded jasper parents: diff changeset	156 table = 0
526c3f268982 Uploaded jasper parents: diff changeset	157 elif len(sys.argv) == 5:
526c3f268982 Uploaded jasper parents: diff changeset	158 align_format, prot_align_file, nuc_fasta_file, nuc_align_file = sys.argv[1:]
526c3f268982 Uploaded jasper parents: diff changeset	159 table = 0
526c3f268982 Uploaded jasper parents: diff changeset	160 elif len(sys.argv) == 6:
526c3f268982 Uploaded jasper parents: diff changeset	161 align_format, prot_align_file, nuc_fasta_file, nuc_align_file, table = sys.argv[1:]
526c3f268982 Uploaded jasper parents: diff changeset	162 else:
526c3f268982 Uploaded jasper parents: diff changeset	163 sys_exit("""This is a Python script for 'back-translating' a protein alignment,
526c3f268982 Uploaded jasper parents: diff changeset	164
526c3f268982 Uploaded jasper parents: diff changeset	165 It requires three, four or five arguments:
526c3f268982 Uploaded jasper parents: diff changeset	166 - alignment format (e.g. fasta, clustal),
526c3f268982 Uploaded jasper parents: diff changeset	167 - aligned protein file (in specified format),
526c3f268982 Uploaded jasper parents: diff changeset	168 - unaligned nucleotide file (in fasta format).
526c3f268982 Uploaded jasper parents: diff changeset	169 - aligned nucleotiode output file (in same format), optional.
526c3f268982 Uploaded jasper parents: diff changeset	170 - NCBI translation table (0 for none), optional
526c3f268982 Uploaded jasper parents: diff changeset	171
526c3f268982 Uploaded jasper parents: diff changeset	172 The nucleotide alignment is printed to stdout if no output filename is given.
526c3f268982 Uploaded jasper parents: diff changeset	173
526c3f268982 Uploaded jasper parents: diff changeset	174 Example usage:
526c3f268982 Uploaded jasper parents: diff changeset	175
526c3f268982 Uploaded jasper parents: diff changeset	176 $ python align_back_trans.py fasta demo_prot_align.fasta demo_nucs.fasta demo_nuc_align.fasta
526c3f268982 Uploaded jasper parents: diff changeset	177
526c3f268982 Uploaded jasper parents: diff changeset	178 Warning: If the output file already exists, it will be overwritten.
526c3f268982 Uploaded jasper parents: diff changeset	179
526c3f268982 Uploaded jasper parents: diff changeset	180 This script is available with sample data and a Galaxy wrapper here:
526c3f268982 Uploaded jasper parents: diff changeset	181 https://github.com/peterjc/pico_galaxy/tree/master/tools/align_back_trans
526c3f268982 Uploaded jasper parents: diff changeset	182 http://toolshed.g2.bx.psu.edu/view/peterjc/align_back_trans
526c3f268982 Uploaded jasper parents: diff changeset	183 """)
526c3f268982 Uploaded jasper parents: diff changeset	184
526c3f268982 Uploaded jasper parents: diff changeset	185 try:
526c3f268982 Uploaded jasper parents: diff changeset	186 table = int(table)
526c3f268982 Uploaded jasper parents: diff changeset	187 except:
526c3f268982 Uploaded jasper parents: diff changeset	188 sys_exit("Bad table argument %r" % table)
526c3f268982 Uploaded jasper parents: diff changeset	189
526c3f268982 Uploaded jasper parents: diff changeset	190 prot_align = AlignIO.read(prot_align_file, align_format, alphabet=generic_protein)
526c3f268982 Uploaded jasper parents: diff changeset	191 nuc_dict = SeqIO.index(nuc_fasta_file, "fasta")
526c3f268982 Uploaded jasper parents: diff changeset	192 nuc_align = alignment_back_translate(prot_align, nuc_dict, gap="-", table=table)
526c3f268982 Uploaded jasper parents: diff changeset	193 AlignIO.write(nuc_align, nuc_align_file, align_format)

Mercurial > repos > jasper > align_back_trans

annotate align_back_trans.py @ 12:28459eecd18c draft