hubarchivecreator_test: hub-archive-creator/Gtf.py annotate

annotate hub-archive-creator/Gtf.py @ 6:9193fe3ee73f draft default tip

Uploaded

author	yating-l
date	Thu, 22 Dec 2016 15:59:24 -0500
parents
children

rev	line source
6 9193fe3ee73f Uploaded yating-l parents: diff changeset	1 #!/usr/bin/python
9193fe3ee73f Uploaded yating-l parents: diff changeset	2
9193fe3ee73f Uploaded yating-l parents: diff changeset	3 import os
9193fe3ee73f Uploaded yating-l parents: diff changeset	4 import tempfile
9193fe3ee73f Uploaded yating-l parents: diff changeset	5
9193fe3ee73f Uploaded yating-l parents: diff changeset	6 # Internal dependencies
9193fe3ee73f Uploaded yating-l parents: diff changeset	7 from Datatype import Datatype
9193fe3ee73f Uploaded yating-l parents: diff changeset	8 from util import subtools
9193fe3ee73f Uploaded yating-l parents: diff changeset	9
9193fe3ee73f Uploaded yating-l parents: diff changeset	10 class InfoModifiedGtf():
9193fe3ee73f Uploaded yating-l parents: diff changeset	11 def __init__(self, is_modified=False, array_modified_lines=[]):
9193fe3ee73f Uploaded yating-l parents: diff changeset	12 self.is_modified = is_modified
9193fe3ee73f Uploaded yating-l parents: diff changeset	13 self.array_modified_lines = array_modified_lines
9193fe3ee73f Uploaded yating-l parents: diff changeset	14
9193fe3ee73f Uploaded yating-l parents: diff changeset	15 def get_str_modified_lines(self):
9193fe3ee73f Uploaded yating-l parents: diff changeset	16 return ','.join(map(str, self.array_modified_lines))
9193fe3ee73f Uploaded yating-l parents: diff changeset	17
9193fe3ee73f Uploaded yating-l parents: diff changeset	18 class Gtf( Datatype ):
9193fe3ee73f Uploaded yating-l parents: diff changeset	19 def __init__( self, input_gtf_false_path, data_gtf):
9193fe3ee73f Uploaded yating-l parents: diff changeset	20
9193fe3ee73f Uploaded yating-l parents: diff changeset	21 super(Gtf, self).__init__()
9193fe3ee73f Uploaded yating-l parents: diff changeset	22
9193fe3ee73f Uploaded yating-l parents: diff changeset	23 self.track = None
9193fe3ee73f Uploaded yating-l parents: diff changeset	24
9193fe3ee73f Uploaded yating-l parents: diff changeset	25 self.input_gtf_false_path = input_gtf_false_path
9193fe3ee73f Uploaded yating-l parents: diff changeset	26 self.name_gtf = data_gtf["name"]
9193fe3ee73f Uploaded yating-l parents: diff changeset	27 self.priority = data_gtf["order_index"]
9193fe3ee73f Uploaded yating-l parents: diff changeset	28 self.track_color = data_gtf["track_color"]
9193fe3ee73f Uploaded yating-l parents: diff changeset	29 # TODO: Think about how to avoid repetition of the group_name everywhere
9193fe3ee73f Uploaded yating-l parents: diff changeset	30 self.group_name = data_gtf["group_name"]
9193fe3ee73f Uploaded yating-l parents: diff changeset	31
9193fe3ee73f Uploaded yating-l parents: diff changeset	32 #print "Creating TrackHub GTF from (falsePath: %s; name: %s)" % ( self.input_gtf_false_path, self.name_gtf)
9193fe3ee73f Uploaded yating-l parents: diff changeset	33
9193fe3ee73f Uploaded yating-l parents: diff changeset	34 # TODO: See if we need these temporary files as part of the generated files
9193fe3ee73f Uploaded yating-l parents: diff changeset	35 genePredFile = tempfile.NamedTemporaryFile(bufsize=0, suffix=".genePred")
9193fe3ee73f Uploaded yating-l parents: diff changeset	36 unsorted_bigGenePred_file = tempfile.NamedTemporaryFile(bufsize=0, suffix=".unsorted.bigGenePred")
9193fe3ee73f Uploaded yating-l parents: diff changeset	37 sorted_bigGenePred_file = tempfile.NamedTemporaryFile(suffix=".sortedBed.bigGenePred")
9193fe3ee73f Uploaded yating-l parents: diff changeset	38
9193fe3ee73f Uploaded yating-l parents: diff changeset	39 # GtfToGenePred
9193fe3ee73f Uploaded yating-l parents: diff changeset	40 ## Checking the integrity of the inputs
9193fe3ee73f Uploaded yating-l parents: diff changeset	41 modified_gtf = self._checkAndFixGtf()
9193fe3ee73f Uploaded yating-l parents: diff changeset	42
9193fe3ee73f Uploaded yating-l parents: diff changeset	43 ## Processing the gtf
9193fe3ee73f Uploaded yating-l parents: diff changeset	44 subtools.gtfToGenePred(self.input_gtf_false_path, genePredFile.name)
9193fe3ee73f Uploaded yating-l parents: diff changeset	45
9193fe3ee73f Uploaded yating-l parents: diff changeset	46 # TODO: From there, refactor because common use with Gff3.py
9193fe3ee73f Uploaded yating-l parents: diff changeset	47 # genePredToBigGenePred processing
9193fe3ee73f Uploaded yating-l parents: diff changeset	48 subtools.genePredToBigGenePred(genePredFile.name, unsorted_bigGenePred_file.name)
9193fe3ee73f Uploaded yating-l parents: diff changeset	49
9193fe3ee73f Uploaded yating-l parents: diff changeset	50 # Sort processing
9193fe3ee73f Uploaded yating-l parents: diff changeset	51 subtools.sort(unsorted_bigGenePred_file.name, sorted_bigGenePred_file.name)
9193fe3ee73f Uploaded yating-l parents: diff changeset	52
9193fe3ee73f Uploaded yating-l parents: diff changeset	53 # bedToBigBed processing
9193fe3ee73f Uploaded yating-l parents: diff changeset	54 trackName = "".join( ( self.name_gtf, ".bb") )
9193fe3ee73f Uploaded yating-l parents: diff changeset	55
9193fe3ee73f Uploaded yating-l parents: diff changeset	56 auto_sql_option = os.path.join(self.tool_directory, 'bigGenePred.as')
9193fe3ee73f Uploaded yating-l parents: diff changeset	57
9193fe3ee73f Uploaded yating-l parents: diff changeset	58 myBigBedFilePath = os.path.join(self.myTrackFolderPath, trackName)
9193fe3ee73f Uploaded yating-l parents: diff changeset	59
9193fe3ee73f Uploaded yating-l parents: diff changeset	60 with open(myBigBedFilePath, 'w') as bigBedFile:
9193fe3ee73f Uploaded yating-l parents: diff changeset	61 subtools.bedToBigBed(sorted_bigGenePred_file.name,
9193fe3ee73f Uploaded yating-l parents: diff changeset	62 self.chromSizesFile.name,
9193fe3ee73f Uploaded yating-l parents: diff changeset	63 bigBedFile.name,
9193fe3ee73f Uploaded yating-l parents: diff changeset	64 autoSql=auto_sql_option,
9193fe3ee73f Uploaded yating-l parents: diff changeset	65 typeOption='bed12+8',
9193fe3ee73f Uploaded yating-l parents: diff changeset	66 tab=True)
9193fe3ee73f Uploaded yating-l parents: diff changeset	67
9193fe3ee73f Uploaded yating-l parents: diff changeset	68
9193fe3ee73f Uploaded yating-l parents: diff changeset	69 # Create the Track Object
9193fe3ee73f Uploaded yating-l parents: diff changeset	70 self.createTrack(file_path=trackName,
9193fe3ee73f Uploaded yating-l parents: diff changeset	71 track_name=trackName,
9193fe3ee73f Uploaded yating-l parents: diff changeset	72 long_label=self.name_gtf, track_type='bigGenePred',
9193fe3ee73f Uploaded yating-l parents: diff changeset	73 visibility='dense', priority=self.priority,
9193fe3ee73f Uploaded yating-l parents: diff changeset	74 track_file=myBigBedFilePath,
9193fe3ee73f Uploaded yating-l parents: diff changeset	75 track_color=self.track_color,
9193fe3ee73f Uploaded yating-l parents: diff changeset	76 group_name=self.group_name)
9193fe3ee73f Uploaded yating-l parents: diff changeset	77
9193fe3ee73f Uploaded yating-l parents: diff changeset	78 # TODO: Use Logging instead of print
9193fe3ee73f Uploaded yating-l parents: diff changeset	79 if modified_gtf.is_modified:
9193fe3ee73f Uploaded yating-l parents: diff changeset	80 print("- Warning: Gtf %s created with a modified version of your Gtf because of start/end coordinates issues."
9193fe3ee73f Uploaded yating-l parents: diff changeset	81 % self.name_gtf)
9193fe3ee73f Uploaded yating-l parents: diff changeset	82 print("Here are the lines removed: " + modified_gtf.get_str_modified_lines())
9193fe3ee73f Uploaded yating-l parents: diff changeset	83 else:
9193fe3ee73f Uploaded yating-l parents: diff changeset	84 print("- Gtf %s created" % self.name_gtf)
9193fe3ee73f Uploaded yating-l parents: diff changeset	85
9193fe3ee73f Uploaded yating-l parents: diff changeset	86 def _checkAndFixGtf(self):
9193fe3ee73f Uploaded yating-l parents: diff changeset	87 """
9193fe3ee73f Uploaded yating-l parents: diff changeset	88 Call _checkAndFixGtf, check the integrity of gtf file,
9193fe3ee73f Uploaded yating-l parents: diff changeset	89 if coordinates exceed chromosome size, either removed the whole line(s) or truncated to the end of the scaffold
9193fe3ee73f Uploaded yating-l parents: diff changeset	90 depending on the user choice
9193fe3ee73f Uploaded yating-l parents: diff changeset	91 default: remove the whole line(s)
9193fe3ee73f Uploaded yating-l parents: diff changeset	92 """
9193fe3ee73f Uploaded yating-l parents: diff changeset	93 # Set the boolean telling if we had to modify the file
9193fe3ee73f Uploaded yating-l parents: diff changeset	94 modified_gtf = InfoModifiedGtf()
9193fe3ee73f Uploaded yating-l parents: diff changeset	95
9193fe3ee73f Uploaded yating-l parents: diff changeset	96 # Create a temp gtf just in case we have issues
9193fe3ee73f Uploaded yating-l parents: diff changeset	97 temp_gtf = tempfile.NamedTemporaryFile(bufsize=0, suffix=".gtf", delete=False)
9193fe3ee73f Uploaded yating-l parents: diff changeset	98
9193fe3ee73f Uploaded yating-l parents: diff changeset	99 # TODO: Get the user choice and use it
9193fe3ee73f Uploaded yating-l parents: diff changeset	100 # TODO: Check if the start > 0 and the end <= chromosome size
9193fe3ee73f Uploaded yating-l parents: diff changeset	101 # Get the chrom.sizes into a dictionary to have a faster access
9193fe3ee73f Uploaded yating-l parents: diff changeset	102 # TODO: Think about doing this in Datatype.py, so everywhere we have access to this read-only dictionary
9193fe3ee73f Uploaded yating-l parents: diff changeset	103 dict_chrom_sizes = {}
9193fe3ee73f Uploaded yating-l parents: diff changeset	104 with open(self.chromSizesFile.name, 'r') as chromSizes:
9193fe3ee73f Uploaded yating-l parents: diff changeset	105 lines = chromSizes.readlines()
9193fe3ee73f Uploaded yating-l parents: diff changeset	106 for line in lines:
9193fe3ee73f Uploaded yating-l parents: diff changeset	107 fields = line.split()
9193fe3ee73f Uploaded yating-l parents: diff changeset	108 # fields[1] should be the name of the scaffold
9193fe3ee73f Uploaded yating-l parents: diff changeset	109 # fields[2] should be the size of the scaffold
9193fe3ee73f Uploaded yating-l parents: diff changeset	110 # TODO: Ensure this is true for all lines
9193fe3ee73f Uploaded yating-l parents: diff changeset	111 dict_chrom_sizes[fields[0]] = fields[1]
9193fe3ee73f Uploaded yating-l parents: diff changeset	112
9193fe3ee73f Uploaded yating-l parents: diff changeset	113 # Parse the GTF and check each line using the chrom sizes dictionary
9193fe3ee73f Uploaded yating-l parents: diff changeset	114 with open(temp_gtf.name, 'a+') as tmp:
9193fe3ee73f Uploaded yating-l parents: diff changeset	115 with open(self.input_gtf_false_path, 'r') as gtf:
9193fe3ee73f Uploaded yating-l parents: diff changeset	116 lines = gtf.readlines()
9193fe3ee73f Uploaded yating-l parents: diff changeset	117 for index, line in enumerate(lines):
9193fe3ee73f Uploaded yating-l parents: diff changeset	118 # If this is not a comment, we check the fields
9193fe3ee73f Uploaded yating-l parents: diff changeset	119 if not line.startswith('#'):
9193fe3ee73f Uploaded yating-l parents: diff changeset	120 fields = line.split()
9193fe3ee73f Uploaded yating-l parents: diff changeset	121 # We are interested in fields[0] => Seqname (scaffold)
9193fe3ee73f Uploaded yating-l parents: diff changeset	122 # We are interested in fields[3] => Start of the scaffold
9193fe3ee73f Uploaded yating-l parents: diff changeset	123 # We are interested in fields[4] => End of the scaffold
9193fe3ee73f Uploaded yating-l parents: diff changeset	124 scaffold_size = dict_chrom_sizes[fields[0]]
9193fe3ee73f Uploaded yating-l parents: diff changeset	125 start_position = fields[3]
9193fe3ee73f Uploaded yating-l parents: diff changeset	126 end_position = fields[4]
9193fe3ee73f Uploaded yating-l parents: diff changeset	127
9193fe3ee73f Uploaded yating-l parents: diff changeset	128 if start_position > 0 and end_position <= scaffold_size:
9193fe3ee73f Uploaded yating-l parents: diff changeset	129 # We are good, so we copy this line
9193fe3ee73f Uploaded yating-l parents: diff changeset	130 tmp.write(line)
9193fe3ee73f Uploaded yating-l parents: diff changeset	131 tmp.write(os.linesep)
9193fe3ee73f Uploaded yating-l parents: diff changeset	132
9193fe3ee73f Uploaded yating-l parents: diff changeset	133
9193fe3ee73f Uploaded yating-l parents: diff changeset	134 # The sequence is not good, we are going to process it regarding the user choice
9193fe3ee73f Uploaded yating-l parents: diff changeset	135 # TODO: Process the user choice
9193fe3ee73f Uploaded yating-l parents: diff changeset	136 # By default, we are assuming the user choice is to remove the lines: We don't copy it
9193fe3ee73f Uploaded yating-l parents: diff changeset	137
9193fe3ee73f Uploaded yating-l parents: diff changeset	138 # If we are here, it means the gtf has been modified
9193fe3ee73f Uploaded yating-l parents: diff changeset	139 else:
9193fe3ee73f Uploaded yating-l parents: diff changeset	140 # We save the line for the feedback to the user
9193fe3ee73f Uploaded yating-l parents: diff changeset	141 modified_gtf.array_modified_lines.append(index + 1)
9193fe3ee73f Uploaded yating-l parents: diff changeset	142
9193fe3ee73f Uploaded yating-l parents: diff changeset	143 if modified_gtf.is_modified is False:
9193fe3ee73f Uploaded yating-l parents: diff changeset	144 modified_gtf.is_modified = True
9193fe3ee73f Uploaded yating-l parents: diff changeset	145 else:
9193fe3ee73f Uploaded yating-l parents: diff changeset	146 pass
9193fe3ee73f Uploaded yating-l parents: diff changeset	147 else:
9193fe3ee73f Uploaded yating-l parents: diff changeset	148 tmp.write(line)
9193fe3ee73f Uploaded yating-l parents: diff changeset	149 tmp.write(os.linesep)
9193fe3ee73f Uploaded yating-l parents: diff changeset	150
9193fe3ee73f Uploaded yating-l parents: diff changeset	151 # Once the process it completed, we just replace the path of the gtf
9193fe3ee73f Uploaded yating-l parents: diff changeset	152 self.input_gtf_false_path = temp_gtf.name
9193fe3ee73f Uploaded yating-l parents: diff changeset	153
9193fe3ee73f Uploaded yating-l parents: diff changeset	154 # TODO: Manage the issue with the fact the dataset is going to still exist on the disk because of delete=False
9193fe3ee73f Uploaded yating-l parents: diff changeset	155
9193fe3ee73f Uploaded yating-l parents: diff changeset	156 return modified_gtf

Mercurial > repos > yating-l > hubarchivecreator_test

annotate hub-archive-creator/Gtf.py @ 6:9193fe3ee73f draft default tip