tmhmm_and_signalp: tools/protein_analysis/psortb.py annotate

annotate tools/protein_analysis/psortb.py @ 18:2b35b5c4b7f4 draft

Uploaded v0.2.5, preview 2, fixed bug in RXLR tools

author	peterjc
date	Fri, 10 May 2013 07:48:26 -0400
parents	3d74c1176d67
children	20139cb4c844

rev	line source
8 391a142c1e60 Uploaded peterjc parents: diff changeset	1 #!/usr/bin/env python
391a142c1e60 Uploaded peterjc parents: diff changeset	2 """Wrapper for psortb for use in Galaxy.
391a142c1e60 Uploaded peterjc parents: diff changeset	3
391a142c1e60 Uploaded peterjc parents: diff changeset	4 This script takes exactly six command line arguments - which includes the
391a142c1e60 Uploaded peterjc parents: diff changeset	5 number of threads, and the input protein FASTA filename and output
391a142c1e60 Uploaded peterjc parents: diff changeset	6 tabular filename. It then splits up the FASTA input and calls multiple
391a142c1e60 Uploaded peterjc parents: diff changeset	7 copies of the standalone psortb v3 program, then collates the output.
391a142c1e60 Uploaded peterjc parents: diff changeset	8 e.g. Rather than this,
391a142c1e60 Uploaded peterjc parents: diff changeset	9
391a142c1e60 Uploaded peterjc parents: diff changeset	10 psort $type -c $cutoff -d $divergent -o long $sequence > $outfile
391a142c1e60 Uploaded peterjc parents: diff changeset	11
391a142c1e60 Uploaded peterjc parents: diff changeset	12 Call this:
391a142c1e60 Uploaded peterjc parents: diff changeset	13
391a142c1e60 Uploaded peterjc parents: diff changeset	14 psort $threads $type $cutoff $divergent $sequence $outfile
391a142c1e60 Uploaded peterjc parents: diff changeset	15
391a142c1e60 Uploaded peterjc parents: diff changeset	16 If ommitting -c or -d options, set $cutoff and $divergent to zero or blank.
391a142c1e60 Uploaded peterjc parents: diff changeset	17
391a142c1e60 Uploaded peterjc parents: diff changeset	18 Note that this is somewhat redundant with job-splitting available in Galaxy
391a142c1e60 Uploaded peterjc parents: diff changeset	19 itself (see the SignalP XML file for settings), but both can be applied.
391a142c1e60 Uploaded peterjc parents: diff changeset	20
391a142c1e60 Uploaded peterjc parents: diff changeset	21 Additionally it ensures the header line (with the column names) starts
391a142c1e60 Uploaded peterjc parents: diff changeset	22 with a # character as used elsewhere in Galaxy.
391a142c1e60 Uploaded peterjc parents: diff changeset	23 """
391a142c1e60 Uploaded peterjc parents: diff changeset	24 import sys
391a142c1e60 Uploaded peterjc parents: diff changeset	25 import os
391a142c1e60 Uploaded peterjc parents: diff changeset	26 import tempfile
391a142c1e60 Uploaded peterjc parents: diff changeset	27 from seq_analysis_utils import stop_err, split_fasta, run_jobs, thread_count
391a142c1e60 Uploaded peterjc parents: diff changeset	28
391a142c1e60 Uploaded peterjc parents: diff changeset	29 FASTA_CHUNK = 500
391a142c1e60 Uploaded peterjc parents: diff changeset	30
391a142c1e60 Uploaded peterjc parents: diff changeset	31 if "-v" in sys.argv or "--version" in sys.argv:
391a142c1e60 Uploaded peterjc parents: diff changeset	32 """Return underlying PSORTb's version"""
391a142c1e60 Uploaded peterjc parents: diff changeset	33 sys.exit(os.system("psort --version"))
391a142c1e60 Uploaded peterjc parents: diff changeset	34
391a142c1e60 Uploaded peterjc parents: diff changeset	35 if len(sys.argv) != 8:
391a142c1e60 Uploaded peterjc parents: diff changeset	36 stop_err("Require 7 arguments, number of threads (int), type (e.g. archaea), "
391a142c1e60 Uploaded peterjc parents: diff changeset	37 "output (e.g. terse/normal/long), cutoff, divergent, input protein "
391a142c1e60 Uploaded peterjc parents: diff changeset	38 "FASTA file & output tabular file")
391a142c1e60 Uploaded peterjc parents: diff changeset	39
391a142c1e60 Uploaded peterjc parents: diff changeset	40 num_threads = thread_count(sys.argv[1], default=4)
391a142c1e60 Uploaded peterjc parents: diff changeset	41 org_type = sys.argv[2]
391a142c1e60 Uploaded peterjc parents: diff changeset	42 out_type = sys.argv[3]
391a142c1e60 Uploaded peterjc parents: diff changeset	43 cutoff = sys.argv[4]
391a142c1e60 Uploaded peterjc parents: diff changeset	44 if cutoff.strip() and float(cutoff.strip()) != 0.0:
391a142c1e60 Uploaded peterjc parents: diff changeset	45 cutoff = "-c %s" % cutoff
391a142c1e60 Uploaded peterjc parents: diff changeset	46 else:
391a142c1e60 Uploaded peterjc parents: diff changeset	47 cutoff = ""
391a142c1e60 Uploaded peterjc parents: diff changeset	48 divergent = sys.argv[5]
391a142c1e60 Uploaded peterjc parents: diff changeset	49 if divergent.strip() and float(divergent.strip()) != 0.0:
391a142c1e60 Uploaded peterjc parents: diff changeset	50 divergent = "-d %s" % divergent
391a142c1e60 Uploaded peterjc parents: diff changeset	51 else:
391a142c1e60 Uploaded peterjc parents: diff changeset	52 divergent = ""
391a142c1e60 Uploaded peterjc parents: diff changeset	53 fasta_file = sys.argv[6]
391a142c1e60 Uploaded peterjc parents: diff changeset	54 tabular_file = sys.argv[7]
391a142c1e60 Uploaded peterjc parents: diff changeset	55
391a142c1e60 Uploaded peterjc parents: diff changeset	56 if out_type == "terse":
391a142c1e60 Uploaded peterjc parents: diff changeset	57 header = ['SeqID', 'Localization', 'Score']
391a142c1e60 Uploaded peterjc parents: diff changeset	58 elif out_type == "normal":
391a142c1e60 Uploaded peterjc parents: diff changeset	59 stop_err("Normal output not implemented yet, sorry.")
391a142c1e60 Uploaded peterjc parents: diff changeset	60 elif out_type == "long":
391a142c1e60 Uploaded peterjc parents: diff changeset	61 if org_type == "-n":
391a142c1e60 Uploaded peterjc parents: diff changeset	62 #Gram negative bacteria
391a142c1e60 Uploaded peterjc parents: diff changeset	63 header = ['SeqID', 'CMSVM-_Localization', 'CMSVM-_Details', 'CytoSVM-_Localization', 'CytoSVM-_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	64 'ECSVM-_Localization', 'ECSVM-_Details', 'ModHMM-_Localization', 'ModHMM-_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	65 'Motif-_Localization', 'Motif-_Details', 'OMPMotif-_Localization', 'OMPMotif-_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	66 'OMSVM-_Localization', 'OMSVM-_Details', 'PPSVM-_Localization', 'PPSVM-_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	67 'Profile-_Localization', 'Profile-_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	68 'SCL-BLAST-_Localization', 'SCL-BLAST-_Details', 'SCL-BLASTe-_Localization', 'SCL-BLASTe-_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	69 'Signal-_Localization', 'Signal-_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	70 'Cytoplasmic_Score', 'CytoplasmicMembrane_Score', 'Periplasmic_Score', 'OuterMembrane_Score',
391a142c1e60 Uploaded peterjc parents: diff changeset	71 'Extracellular_Score', 'Final_Localization', 'Final_Localization_Details', 'Final_Score',
391a142c1e60 Uploaded peterjc parents: diff changeset	72 'Secondary_Localization', 'PSortb_Version']
391a142c1e60 Uploaded peterjc parents: diff changeset	73 elif org_type == "-p":
391a142c1e60 Uploaded peterjc parents: diff changeset	74 #Gram positive bacteria
391a142c1e60 Uploaded peterjc parents: diff changeset	75 header = ['SeqID', 'CMSVM+_Localization', 'CMSVM+_Details', 'CWSVM+_Localization', 'CWSVM+_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	76 'CytoSVM+_Localization', 'CytoSVM+_Details', 'ECSVM+_Localization', 'ECSVM+_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	77 'ModHMM+_Localization', 'ModHMM+_Details', 'Motif+_Localization', 'Motif+_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	78 'Profile+_Localization', 'Profile+_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	79 'SCL-BLAST+_Localization', 'SCL-BLAST+_Details', 'SCL-BLASTe+_Localization', 'SCL-BLASTe+_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	80 'Signal+_Localization', 'Signal+_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	81 'Cytoplasmic_Score', 'CytoplasmicMembrane_Score', 'Cellwall_Score',
391a142c1e60 Uploaded peterjc parents: diff changeset	82 'Extracellular_Score', 'Final_Localization', 'Final_Localization_Details', 'Final_Score',
391a142c1e60 Uploaded peterjc parents: diff changeset	83 'Secondary_Localization', 'PSortb_Version']
391a142c1e60 Uploaded peterjc parents: diff changeset	84 elif org_type == "-a":
391a142c1e60 Uploaded peterjc parents: diff changeset	85 #Archaea
391a142c1e60 Uploaded peterjc parents: diff changeset	86 header = ['SeqID', 'CMSVM_a_Localization', 'CMSVM_a_Details', 'CWSVM_a_Localization', 'CWSVM_a_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	87 'CytoSVM_a_Localization', 'CytoSVM_a_Details', 'ECSVM_a_Localization', 'ECSVM_a_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	88 'ModHMM_a_Localization', 'ModHMM_a_Details', 'Motif_a_Localization', 'Motif_a_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	89 'Profile_a_Localization', 'Profile_a_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	90 'SCL-BLAST_a_Localization', 'SCL-BLAST_a_Details', 'SCL-BLASTe_a_Localization', 'SCL-BLASTe_a_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	91 'Signal_a_Localization', 'Signal_a_Details',
391a142c1e60 Uploaded peterjc parents: diff changeset	92 'Cytoplasmic_Score', 'CytoplasmicMembrane_Score', 'Cellwall_Score',
391a142c1e60 Uploaded peterjc parents: diff changeset	93 'Extracellular_Score', 'Final_Localization', 'Final_Localization_Details', 'Final_Score',
391a142c1e60 Uploaded peterjc parents: diff changeset	94 'Secondary_Localization', 'PSortb_Version']
391a142c1e60 Uploaded peterjc parents: diff changeset	95 else:
391a142c1e60 Uploaded peterjc parents: diff changeset	96 stop_err("Expected -n, -p or -a for the organism type, not %r" % org_type)
391a142c1e60 Uploaded peterjc parents: diff changeset	97 else:
391a142c1e60 Uploaded peterjc parents: diff changeset	98 stop_err("Expected terse, normal or long for the output type, not %r" % out_type)
391a142c1e60 Uploaded peterjc parents: diff changeset	99
391a142c1e60 Uploaded peterjc parents: diff changeset	100 tmp_dir = tempfile.mkdtemp()
391a142c1e60 Uploaded peterjc parents: diff changeset	101
391a142c1e60 Uploaded peterjc parents: diff changeset	102 def clean_tabular(raw_handle, out_handle):
391a142c1e60 Uploaded peterjc parents: diff changeset	103 """Clean up tabular TMHMM output, returns output line count."""
391a142c1e60 Uploaded peterjc parents: diff changeset	104 global header
391a142c1e60 Uploaded peterjc parents: diff changeset	105 count = 0
391a142c1e60 Uploaded peterjc parents: diff changeset	106 for line in raw_handle:
391a142c1e60 Uploaded peterjc parents: diff changeset	107 if not line.strip() or line.startswith("#"):
391a142c1e60 Uploaded peterjc parents: diff changeset	108 #Ignore any blank lines or comment lines
391a142c1e60 Uploaded peterjc parents: diff changeset	109 continue
391a142c1e60 Uploaded peterjc parents: diff changeset	110 parts = [x.strip() for x in line.rstrip("\r\n").split("\t")]
391a142c1e60 Uploaded peterjc parents: diff changeset	111 if parts == header:
391a142c1e60 Uploaded peterjc parents: diff changeset	112 #Ignore the header line
391a142c1e60 Uploaded peterjc parents: diff changeset	113 continue
391a142c1e60 Uploaded peterjc parents: diff changeset	114 if not parts[-1] and len(parts) == len(header) + 1:
391a142c1e60 Uploaded peterjc parents: diff changeset	115 #Ignore dummy blank extra column, e.g.
391a142c1e60 Uploaded peterjc parents: diff changeset	116 #"...2.0\t\tPSORTb version 3.0\t\n"
391a142c1e60 Uploaded peterjc parents: diff changeset	117 parts = parts[:-1]
391a142c1e60 Uploaded peterjc parents: diff changeset	118 assert len(parts) == len(header), \
391a142c1e60 Uploaded peterjc parents: diff changeset	119 "%i fields, not %i, in line:\n%r" % (len(line), len(header), line)
391a142c1e60 Uploaded peterjc parents: diff changeset	120 out_handle.write(line)
391a142c1e60 Uploaded peterjc parents: diff changeset	121 count += 1
391a142c1e60 Uploaded peterjc parents: diff changeset	122 return count
391a142c1e60 Uploaded peterjc parents: diff changeset	123
391a142c1e60 Uploaded peterjc parents: diff changeset	124 #Note that if the input FASTA file contains no sequences,
391a142c1e60 Uploaded peterjc parents: diff changeset	125 #split_fasta returns an empty list (i.e. zero temp files).
391a142c1e60 Uploaded peterjc parents: diff changeset	126 fasta_files = split_fasta(fasta_file, os.path.join(tmp_dir, "tmhmm"), FASTA_CHUNK)
391a142c1e60 Uploaded peterjc parents: diff changeset	127 temp_files = [f+".out" for f in fasta_files]
391a142c1e60 Uploaded peterjc parents: diff changeset	128 jobs = ["psort %s %s %s -o %s %s > %s" % (org_type, cutoff, divergent, out_type, fasta, temp)
391a142c1e60 Uploaded peterjc parents: diff changeset	129 for fasta, temp in zip(fasta_files, temp_files)]
391a142c1e60 Uploaded peterjc parents: diff changeset	130
391a142c1e60 Uploaded peterjc parents: diff changeset	131 def clean_up(file_list):
391a142c1e60 Uploaded peterjc parents: diff changeset	132 for f in file_list:
391a142c1e60 Uploaded peterjc parents: diff changeset	133 if os.path.isfile(f):
391a142c1e60 Uploaded peterjc parents: diff changeset	134 os.remove(f)
391a142c1e60 Uploaded peterjc parents: diff changeset	135 try:
391a142c1e60 Uploaded peterjc parents: diff changeset	136 os.rmdir(tmp_dir)
391a142c1e60 Uploaded peterjc parents: diff changeset	137 except:
391a142c1e60 Uploaded peterjc parents: diff changeset	138 pass
391a142c1e60 Uploaded peterjc parents: diff changeset	139
391a142c1e60 Uploaded peterjc parents: diff changeset	140 if len(jobs) > 1 and num_threads > 1:
391a142c1e60 Uploaded peterjc parents: diff changeset	141 #A small "info" message for Galaxy to show the user.
391a142c1e60 Uploaded peterjc parents: diff changeset	142 print "Using %i threads for %i tasks" % (min(num_threads, len(jobs)), len(jobs))
391a142c1e60 Uploaded peterjc parents: diff changeset	143 results = run_jobs(jobs, num_threads)
391a142c1e60 Uploaded peterjc parents: diff changeset	144 for fasta, temp, cmd in zip(fasta_files, temp_files, jobs):
391a142c1e60 Uploaded peterjc parents: diff changeset	145 error_level = results[cmd]
391a142c1e60 Uploaded peterjc parents: diff changeset	146 if error_level:
391a142c1e60 Uploaded peterjc parents: diff changeset	147 try:
391a142c1e60 Uploaded peterjc parents: diff changeset	148 output = open(temp).readline()
391a142c1e60 Uploaded peterjc parents: diff changeset	149 except IOError:
391a142c1e60 Uploaded peterjc parents: diff changeset	150 output = ""
391a142c1e60 Uploaded peterjc parents: diff changeset	151 clean_up(fasta_files + temp_files)
391a142c1e60 Uploaded peterjc parents: diff changeset	152 stop_err("One or more tasks failed, e.g. %i from %r gave:\n%s" % (error_level, cmd, output),
391a142c1e60 Uploaded peterjc parents: diff changeset	153 error_level)
391a142c1e60 Uploaded peterjc parents: diff changeset	154 del results
391a142c1e60 Uploaded peterjc parents: diff changeset	155 del jobs
391a142c1e60 Uploaded peterjc parents: diff changeset	156
391a142c1e60 Uploaded peterjc parents: diff changeset	157 out_handle = open(tabular_file, "w")
391a142c1e60 Uploaded peterjc parents: diff changeset	158 out_handle.write("#%s\n" % "\t".join(header))
11 3d74c1176d67 Uploaded minor fix peterjc parents: 8 diff changeset	159 count = 0
8 391a142c1e60 Uploaded peterjc parents: diff changeset	160 for temp in temp_files:
391a142c1e60 Uploaded peterjc parents: diff changeset	161 data_handle = open(temp)
11 3d74c1176d67 Uploaded minor fix peterjc parents: 8 diff changeset	162 count += clean_tabular(data_handle, out_handle)
8 391a142c1e60 Uploaded peterjc parents: diff changeset	163 data_handle.close()
391a142c1e60 Uploaded peterjc parents: diff changeset	164 if not count:
391a142c1e60 Uploaded peterjc parents: diff changeset	165 clean_up(fasta_files + temp_files)
391a142c1e60 Uploaded peterjc parents: diff changeset	166 stop_err("No output from psortb")
391a142c1e60 Uploaded peterjc parents: diff changeset	167 out_handle.close()
391a142c1e60 Uploaded peterjc parents: diff changeset	168 print "%i records" % count
391a142c1e60 Uploaded peterjc parents: diff changeset	169
391a142c1e60 Uploaded peterjc parents: diff changeset	170 clean_up(fasta_files + temp_files)

Mercurial > repos > peterjc > tmhmm_and_signalp

annotate tools/protein_analysis/psortb.py @ 18:2b35b5c4b7f4 draft