fastq_paired_unpaired: tools/ncbi_blast_plus/blastxml_to

annotate tools/ncbi_blast_plus/blastxml_to_tabular.py @ 2:fae4084a0bc0 draft

Uploaded v0.0.20, preview 5 Cope if cElementTree is missing in BLAST XML to tabular script.

author	peterjc
date	Thu, 02 May 2013 11:20:43 -0400
parents
children

rev	line source
2 fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	1 #!/usr/bin/env python
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	2 """Convert a BLAST XML file to tabular output.
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	3
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	4 Takes three command line options, input BLAST XML filename, output tabular
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	5 BLAST filename, output format (std for standard 12 columns, or ext for the
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	6 extended 24 columns offered in the BLAST+ wrappers).
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	7
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	8 The 12 columns output are 'qseqid sseqid pident length mismatch gapopen qstart
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	9 qend sstart send evalue bitscore' or 'std' at the BLAST+ command line, which
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	10 mean:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	11
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	12 ====== ========= ============================================
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	13 Column NCBI name Description
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	14 ------ --------- --------------------------------------------
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	15 1 qseqid Query Seq-id (ID of your sequence)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	16 2 sseqid Subject Seq-id (ID of the database hit)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	17 3 pident Percentage of identical matches
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	18 4 length Alignment length
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	19 5 mismatch Number of mismatches
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	20 6 gapopen Number of gap openings
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	21 7 qstart Start of alignment in query
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	22 8 qend End of alignment in query
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	23 9 sstart Start of alignment in subject (database hit)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	24 10 send End of alignment in subject (database hit)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	25 11 evalue Expectation value (E-value)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	26 12 bitscore Bit score
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	27 ====== ========= ============================================
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	28
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	29 The additional columns offered in the Galaxy BLAST+ wrappers are:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	30
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	31 ====== ============= ===========================================
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	32 Column NCBI name Description
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	33 ------ ------------- -------------------------------------------
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	34 13 sallseqid All subject Seq-id(s), separated by a ';'
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	35 14 score Raw score
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	36 15 nident Number of identical matches
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	37 16 positive Number of positive-scoring matches
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	38 17 gaps Total number of gaps
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	39 18 ppos Percentage of positive-scoring matches
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	40 19 qframe Query frame
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	41 20 sframe Subject frame
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	42 21 qseq Aligned part of query sequence
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	43 22 sseq Aligned part of subject sequence
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	44 23 qlen Query sequence length
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	45 24 slen Subject sequence length
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	46 ====== ============= ===========================================
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	47
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	48 Most of these fields are given explicitly in the XML file, others some like
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	49 the percentage identity and the number of gap openings must be calculated.
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	50
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	51 Be aware that the sequence in the extended tabular output or XML direct from
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	52 BLAST+ may or may not use XXXX masking on regions of low complexity. This
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	53 can throw the off the calculation of percentage identity and gap openings.
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	54 [In fact, both BLAST 2.2.24+ and 2.2.25+ have a subtle bug in this regard,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	55 with these numbers changing depending on whether or not the low complexity
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	56 filter is used.]
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	57
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	58 This script attempts to produce identical output to what BLAST+ would have done.
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	59 However, check this with "diff -b ..." since BLAST+ sometimes includes an extra
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	60 space character (probably a bug).
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	61 """
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	62 import sys
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	63 import re
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	64
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	65 if "-v" in sys.argv or "--version" in sys.argv:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	66 print "v0.0.12"
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	67 sys.exit(0)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	68
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	69 if sys.version_info[:2] >= ( 2, 5 ):
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	70 try:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	71 from xml.etree import cElementTree as ElementTree
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	72 except ImportError:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	73 from xml.etree import ElementTree as ElementTree
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	74 else:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	75 from galaxy import eggs
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	76 import pkg_resources; pkg_resources.require( "elementtree" )
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	77 from elementtree import ElementTree
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	78
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	79 def stop_err( msg ):
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	80 sys.stderr.write("%s\n" % msg)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	81 sys.exit(1)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	82
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	83 #Parse Command Line
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	84 try:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	85 in_file, out_file, out_fmt = sys.argv[1:]
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	86 except:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	87 stop_err("Expect 3 arguments: input BLAST XML file, output tabular file, out format (std or ext)")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	88
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	89 if out_fmt == "std":
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	90 extended = False
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	91 elif out_fmt == "x22":
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	92 stop_err("Format argument x22 has been replaced with ext (extended 24 columns)")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	93 elif out_fmt == "ext":
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	94 extended = True
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	95 else:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	96 stop_err("Format argument should be std (12 column) or ext (extended 24 columns)")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	97
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	98
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	99 # get an iterable
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	100 try:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	101 context = ElementTree.iterparse(in_file, events=("start", "end"))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	102 except:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	103 stop_err("Invalid data format.")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	104 # turn it into an iterator
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	105 context = iter(context)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	106 # get the root element
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	107 try:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	108 event, root = context.next()
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	109 except:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	110 stop_err( "Invalid data format." )
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	111
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	112
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	113 re_default_query_id = re.compile("^Query_\d+$")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	114 assert re_default_query_id.match("Query_101")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	115 assert not re_default_query_id.match("Query_101a")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	116 assert not re_default_query_id.match("MyQuery_101")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	117 re_default_subject_id = re.compile("^Subject_\d+$")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	118 assert re_default_subject_id.match("Subject_1")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	119 assert not re_default_subject_id.match("Subject_")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	120 assert not re_default_subject_id.match("Subject_12a")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	121 assert not re_default_subject_id.match("TheSubject_1")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	122
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	123
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	124 outfile = open(out_file, 'w')
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	125 blast_program = None
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	126 for event, elem in context:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	127 if event == "end" and elem.tag == "BlastOutput_program":
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	128 blast_program = elem.text
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	129 # for every <Iteration> tag
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	130 if event == "end" and elem.tag == "Iteration":
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	131 #Expecting either this, from BLAST 2.2.25+ using FASTA vs FASTA
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	132 # <Iteration_query-ID>sp\|Q9BS26\|ERP44_HUMAN</Iteration_query-ID>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	133 # <Iteration_query-def>Endoplasmic reticulum resident protein 44 OS=Homo sapiens GN=ERP44 PE=1 SV=1</Iteration_query-def>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	134 # <Iteration_query-len>406</Iteration_query-len>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	135 # <Iteration_hits></Iteration_hits>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	136 #
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	137 #Or, from BLAST 2.2.24+ run online
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	138 # <Iteration_query-ID>Query_1</Iteration_query-ID>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	139 # <Iteration_query-def>Sample</Iteration_query-def>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	140 # <Iteration_query-len>516</Iteration_query-len>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	141 # <Iteration_hits>...
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	142 qseqid = elem.findtext("Iteration_query-ID")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	143 if re_default_query_id.match(qseqid):
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	144 #Place holder ID, take the first word of the query definition
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	145 qseqid = elem.findtext("Iteration_query-def").split(None,1)[0]
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	146 qlen = int(elem.findtext("Iteration_query-len"))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	147
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	148 # for every <Hit> within <Iteration>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	149 for hit in elem.findall("Iteration_hits/Hit"):
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	150 #Expecting either this,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	151 # <Hit_id>gi\|3024260\|sp\|P56514.1\|OPSD_BUFBU</Hit_id>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	152 # <Hit_def>RecName: Full=Rhodopsin</Hit_def>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	153 # <Hit_accession>P56514</Hit_accession>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	154 #or,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	155 # <Hit_id>Subject_1</Hit_id>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	156 # <Hit_def>gi\|57163783\|ref\|NP_001009242.1\| rhodopsin [Felis catus]</Hit_def>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	157 # <Hit_accession>Subject_1</Hit_accession>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	158 #
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	159 #apparently depending on the parse_deflines switch
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	160 sseqid = hit.findtext("Hit_id").split(None,1)[0]
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	161 hit_def = sseqid + " " + hit.findtext("Hit_def")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	162 if re_default_subject_id.match(sseqid) \
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	163 and sseqid == hit.findtext("Hit_accession"):
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	164 #Place holder ID, take the first word of the subject definition
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	165 hit_def = hit.findtext("Hit_def")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	166 sseqid = hit_def.split(None,1)[0]
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	167 # for every <Hsp> within <Hit>
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	168 for hsp in hit.findall("Hit_hsps/Hsp"):
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	169 nident = hsp.findtext("Hsp_identity")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	170 length = hsp.findtext("Hsp_align-len")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	171 pident = "%0.2f" % (100*float(nident)/float(length))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	172
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	173 q_seq = hsp.findtext("Hsp_qseq")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	174 h_seq = hsp.findtext("Hsp_hseq")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	175 m_seq = hsp.findtext("Hsp_midline")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	176 assert len(q_seq) == len(h_seq) == len(m_seq) == int(length)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	177 gapopen = str(len(q_seq.replace('-', ' ').split())-1 + \
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	178 len(h_seq.replace('-', ' ').split())-1)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	179
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	180 mismatch = m_seq.count(' ') + m_seq.count('+') \
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	181 - q_seq.count('-') - h_seq.count('-')
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	182 #TODO - Remove this alternative mismatch calculation and test
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	183 #once satisifed there are no problems
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	184 expected_mismatch = len(q_seq) \
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	185 - sum(1 for q,h in zip(q_seq, h_seq) \
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	186 if q == h or q == "-" or h == "-")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	187 xx = sum(1 for q,h in zip(q_seq, h_seq) if q=="X" and h=="X")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	188 if not (expected_mismatch - q_seq.count("X") <= int(mismatch) <= expected_mismatch + xx):
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	189 stop_err("%s vs %s mismatches, expected %i <= %i <= %i" \
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	190 % (qseqid, sseqid, expected_mismatch - q_seq.count("X"),
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	191 int(mismatch), expected_mismatch))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	192
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	193 #TODO - Remove this alternative identity calculation and test
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	194 #once satisifed there are no problems
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	195 expected_identity = sum(1 for q,h in zip(q_seq, h_seq) if q == h)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	196 if not (expected_identity - xx <= int(nident) <= expected_identity + q_seq.count("X")):
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	197 stop_err("%s vs %s identities, expected %i <= %i <= %i" \
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	198 % (qseqid, sseqid, expected_identity, int(nident),
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	199 expected_identity + q_seq.count("X")))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	200
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	201
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	202 evalue = hsp.findtext("Hsp_evalue")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	203 if evalue == "0":
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	204 evalue = "0.0"
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	205 else:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	206 evalue = "%0.0e" % float(evalue)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	207
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	208 bitscore = float(hsp.findtext("Hsp_bit-score"))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	209 if bitscore < 100:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	210 #Seems to show one decimal place for lower scores
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	211 bitscore = "%0.1f" % bitscore
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	212 else:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	213 #Note BLAST does not round to nearest int, it truncates
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	214 bitscore = "%i" % bitscore
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	215
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	216 values = [qseqid,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	217 sseqid,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	218 pident,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	219 length, #hsp.findtext("Hsp_align-len")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	220 str(mismatch),
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	221 gapopen,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	222 hsp.findtext("Hsp_query-from"), #qstart,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	223 hsp.findtext("Hsp_query-to"), #qend,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	224 hsp.findtext("Hsp_hit-from"), #sstart,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	225 hsp.findtext("Hsp_hit-to"), #send,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	226 evalue, #hsp.findtext("Hsp_evalue") in scientific notation
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	227 bitscore, #hsp.findtext("Hsp_bit-score") rounded
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	228 ]
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	229
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	230 if extended:
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	231 sallseqid = ";".join(name.split(None,1)[0] for name in hit_def.split(">"))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	232 #print hit_def, "-->", sallseqid
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	233 positive = hsp.findtext("Hsp_positive")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	234 ppos = "%0.2f" % (100*float(positive)/float(length))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	235 qframe = hsp.findtext("Hsp_query-frame")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	236 sframe = hsp.findtext("Hsp_hit-frame")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	237 if blast_program == "blastp":
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	238 #Probably a bug in BLASTP that they use 0 or 1 depending on format
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	239 if qframe == "0": qframe = "1"
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	240 if sframe == "0": sframe = "1"
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	241 slen = int(hit.findtext("Hit_len"))
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	242 values.extend([sallseqid,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	243 hsp.findtext("Hsp_score"), #score,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	244 nident,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	245 positive,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	246 hsp.findtext("Hsp_gaps"), #gaps,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	247 ppos,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	248 qframe,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	249 sframe,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	250 #NOTE - for blastp, XML shows original seq, tabular uses XXX masking
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	251 q_seq,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	252 h_seq,
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	253 str(qlen),
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	254 str(slen),
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	255 ])
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	256 #print "\t".join(values)
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	257 outfile.write("\t".join(values) + "\n")
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	258 # prevents ElementTree from growing large datastructure
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	259 root.clear()
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	260 elem.clear()
fae4084a0bc0 Uploaded v0.0.20, preview 5 peterjc parents: diff changeset	261 outfile.close()

Mercurial > repos > peterjc > fastq_paired_unpaired

annotate tools/ncbi_blast_plus/blastxml_to_tabular.py @ 2:fae4084a0bc0 draft