molecule_datatypes: molecules.py annotate

annotate molecules.py @ 11:18ff2d6e1dca default tip

ChemicalToolBoX update.

author	Bjoern Gruening <bjoern.gruening@gmail.com>
date	Tue, 23 Jul 2013 14:52:55 +0200
parents	1a070566e9c6
children

rev	line source
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	1 # -- coding: utf-8 --
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	2
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	3 from galaxy.datatypes import data
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	4 import logging
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	5 from galaxy.datatypes.sniff import get_headers, get_test_fname
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	6 from galaxy.datatypes.data import get_file_peek
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	7 from galaxy.datatypes.tabular import Tabular
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	8 from galaxy.datatypes.binary import Binary
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	9 from galaxy.datatypes.xml import GenericXml
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	10 import subprocess
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	11 import os
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	12 #import pybel
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	13 #import openbabel
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	14 #openbabel.obErrorLog.StopLogging()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	15
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	16 from galaxy.datatypes.metadata import MetadataElement
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	17 from galaxy.datatypes import metadata
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	18
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	19 log = logging.getLogger(__name__)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	20
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	21 def count_special_lines( word, filename, invert = False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	22 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	23 searching for special 'words' using the grep tool
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	24 grep is used to speed up the searching and counting
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	25 The number of hits is returned.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	26 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	27 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	28 cmd = ["grep", "-c"]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	29 if invert:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	30 cmd.append('-v')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	31 cmd.extend([word, filename])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	32 out = subprocess.Popen(cmd, stdout=subprocess.PIPE)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	33 return int(out.communicate()[0].split()[0])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	34 except:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	35 pass
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	36 return 0
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	37
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	38 def count_lines( filename, non_empty = False):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	39 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	40 counting the number of lines from the 'filename' file
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	41 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	42 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	43 if non_empty:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	44 out = subprocess.Popen(['grep', '-cve', '^\s*$', filename], stdout=subprocess.PIPE)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	45 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	46 out = subprocess.Popen(['wc', '-l', filename], stdout=subprocess.PIPE)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	47 return int(out.communicate()[0].split()[0])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	48 except:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	49 pass
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	50 return 0
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	51
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	52
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	53 class GenericMolFile( data.Text ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	54 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	55 abstract class for most of the molecule files
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	56 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	57 MetadataElement( name="number_of_molecules", default=0, desc="Number of molecules", readonly=True, visible=True, optional=True, no_value=0 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	58
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	59 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	60 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	61 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	62 if (dataset.metadata.number_of_molecules == 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	63 dataset.blurb = "1 molecule"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	64 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	65 dataset.blurb = "%s molecules" % dataset.metadata.number_of_molecules
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	66 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	67 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	68 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	69 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	70
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	71 def get_mime(self):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	72 return 'text/plain'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	73
2 e533de975501 Uploaded bgruening parents: 0 diff changeset	74 class MOL( GenericMolFile ):
e533de975501 Uploaded bgruening parents: 0 diff changeset	75 file_ext = "mol"
e533de975501 Uploaded bgruening parents: 0 diff changeset	76 def sniff( self, filename ):
3 ad5ecf08508a Uploaded bgruening parents: 2 diff changeset	77 if count_special_lines("^M\s*END", filename) == 1:
2 e533de975501 Uploaded bgruening parents: 0 diff changeset	78 return True
e533de975501 Uploaded bgruening parents: 0 diff changeset	79 else:
e533de975501 Uploaded bgruening parents: 0 diff changeset	80 return False
e533de975501 Uploaded bgruening parents: 0 diff changeset	81
e533de975501 Uploaded bgruening parents: 0 diff changeset	82 def set_meta( self, dataset, **kwd ):
e533de975501 Uploaded bgruening parents: 0 diff changeset	83 """
e533de975501 Uploaded bgruening parents: 0 diff changeset	84 Set the number molecules, in the case of MOL its always one.
e533de975501 Uploaded bgruening parents: 0 diff changeset	85 """
e533de975501 Uploaded bgruening parents: 0 diff changeset	86 dataset.metadata.number_of_molecules = 1
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	87
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	88
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	89 class SDF( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	90 file_ext = "sdf"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	91 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	92 if count_special_lines("^\$\$\$\$", filename) > 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	93 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	94 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	95 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	96
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	97 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	98 """
2 e533de975501 Uploaded bgruening parents: 0 diff changeset	99 Set the number of molecules in dataset.
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	100 """
2 e533de975501 Uploaded bgruening parents: 0 diff changeset	101 dataset.metadata.number_of_molecules = count_special_lines("^\$\$\$\$", dataset.file_name)
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	102
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	103 def split( cls, input_datasets, subdir_generator_function, split_params):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	104 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	105 Split the input files by molecule records.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	106 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	107 if split_params is None:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	108 return None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	109
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	110 if len(input_datasets) > 1:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	111 raise Exception("SD-file splitting does not support multiple files")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	112 input_files = [ds.file_name for ds in input_datasets]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	113
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	114 chunk_size = None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	115 if split_params['split_mode'] == 'number_of_parts':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	116 raise Exception('Split mode "%s" is currently not implemented for SD-files.' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	117 elif split_params['split_mode'] == 'to_size':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	118 chunk_size = int(split_params['split_size'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	119 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	120 raise Exception('Unsupported split mode %s' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	121
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	122 def _read_sdf_records( filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	123 lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	124 with open(filename) as handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	125 for line in handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	126 lines.append( line )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	127 if line.startswith("$$$$"):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	128 yield lines
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	129 lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	130
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	131 def _write_part_sdf_file( accumulated_lines ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	132 part_dir = subdir_generator_function()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	133 part_path = os.path.join(part_dir, os.path.basename(input_files[0]))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	134 part_file = open(part_path, 'w')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	135 part_file.writelines( accumulated_lines )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	136 part_file.close()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	137
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	138 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	139 sdf_records = _read_sdf_records( input_files[0] )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	140 sdf_lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	141 for counter, sdf_record in enumerate( sdf_records, start = 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	142 sdf_lines_accumulated.extend( sdf_record )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	143 if counter % chunk_size == 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	144 _write_part_sdf_file( sdf_lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	145 sdf_lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	146 if sdf_lines_accumulated:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	147 _write_part_sdf_file( sdf_lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	148 except Exception, e:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	149 log.error('Unable to split files: %s' % str(e))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	150 raise
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	151 split = classmethod(split)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	152
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	153
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	154 class MOL2( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	155 file_ext = "mol2"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	156 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	157 if count_special_lines("@\<TRIPOS\>MOLECULE", filename) > 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	158 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	159 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	160 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	161
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	162 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	163 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	164 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	165 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	166 dataset.metadata.number_of_molecules = count_special_lines("@<TRIPOS>MOLECULE", dataset.file_name)#self.count_data_lines(dataset)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	167
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	168 def split( cls, input_datasets, subdir_generator_function, split_params):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	169 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	170 Split the input files by molecule records.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	171 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	172 if split_params is None:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	173 return None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	174
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	175 if len(input_datasets) > 1:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	176 raise Exception("MOL2-file splitting does not support multiple files")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	177 input_files = [ds.file_name for ds in input_datasets]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	178
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	179 chunk_size = None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	180 if split_params['split_mode'] == 'number_of_parts':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	181 raise Exception('Split mode "%s" is currently not implemented for MOL2-files.' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	182 elif split_params['split_mode'] == 'to_size':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	183 chunk_size = int(split_params['split_size'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	184 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	185 raise Exception('Unsupported split mode %s' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	186
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	187 def _read_mol2_records( filename ):
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	188 lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	189 start = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	190 with open(filename) as handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	191 for line in handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	192 if line.startswith("@<TRIPOS>MOLECULE"):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	193 if start:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	194 start = False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	195 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	196 yield lines
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	197 lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	198 lines.append( line )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	199
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	200 def _write_part_mol2_file( accumulated_lines ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	201 part_dir = subdir_generator_function()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	202 part_path = os.path.join(part_dir, os.path.basename(input_files[0]))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	203 part_file = open(part_path, 'w')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	204 part_file.writelines( accumulated_lines )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	205 part_file.close()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	206
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	207 try:
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	208 mol2_records = _read_mol2_records( input_files[0] )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	209 mol2_lines_accumulated = []
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	210 for counter, mol2_record in enumerate( mol2_records, start = 1):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	211 mol2_lines_accumulated.extend( mol2_record )
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	212 if counter % chunk_size == 0:
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	213 _write_part_mol2_file( mol2_lines_accumulated )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	214 mol2_lines_accumulated = []
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	215 if mol2_lines_accumulated:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	216 _write_part_mol2_file( mol2_lines_accumulated )
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	217 except Exception, e:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	218 log.error('Unable to split files: %s' % str(e))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	219 raise
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	220 split = classmethod(split)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	221
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	222
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	223
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	224 class FPS( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	225 """
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	226 chemfp fingerprint file: http://code.google.com/p/chem-fingerprints/wiki/FPS
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	227 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	228 file_ext = "fps"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	229 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	230 header = get_headers( filename, sep='\t', count=1 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	231 if header[0][0].strip() == '#FPS1':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	232 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	233 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	234 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	235
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	236 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	237 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	238 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	239 """
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	240 dataset.metadata.number_of_molecules = count_special_lines('^#', dataset.file_name, invert = True)
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	241
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	242
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	243 def split( cls, input_datasets, subdir_generator_function, split_params):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	244 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	245 Split the input files by fingerprint records.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	246 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	247 if split_params is None:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	248 return None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	249
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	250 if len(input_datasets) > 1:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	251 raise Exception("FPS-file splitting does not support multiple files")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	252 input_files = [ds.file_name for ds in input_datasets]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	253
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	254 chunk_size = None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	255 if split_params['split_mode'] == 'number_of_parts':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	256 raise Exception('Split mode "%s" is currently not implemented for MOL2-files.' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	257 elif split_params['split_mode'] == 'to_size':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	258 chunk_size = int(split_params['split_size'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	259 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	260 raise Exception('Unsupported split mode %s' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	261
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	262
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	263 def _write_part_fingerprint_file( accumulated_lines ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	264 part_dir = subdir_generator_function()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	265 part_path = os.path.join(part_dir, os.path.basename(input_files[0]))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	266 part_file = open(part_path, 'w')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	267 part_file.writelines( accumulated_lines )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	268 part_file.close()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	269
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	270 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	271 header_lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	272 lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	273 fingerprint_counter = 0
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	274 for line in open( input_files[0] ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	275 if not line.strip():
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	276 continue
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	277 if line.startswith('#'):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	278 header_lines.append( line )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	279 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	280 fingerprint_counter += 1
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	281 lines_accumulated.append( line )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	282 if fingerprint_counter != 0 and fingerprint_counter % chunk_size == 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	283 _write_part_fingerprint_file( header_lines + lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	284 lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	285 if lines_accumulated:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	286 _write_part_fingerprint_file( header_lines + lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	287 except Exception, e:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	288 log.error('Unable to split files: %s' % str(e))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	289 raise
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	290 split = classmethod(split)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	291
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	292
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	293 def merge(split_files, output_file):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	294 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	295 Merging fps files requires merging the header manually.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	296 We take the header from the first file.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	297 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	298 if len(split_files) == 1:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	299 #For one file only, use base class method (move/copy)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	300 return data.Text.merge(split_files, output_file)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	301 if not split_files:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	302 raise ValueError("No fps files given, %r, to merge into %s" \
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	303 % (split_files, output_file))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	304 out = open(output_file, "w")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	305 first = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	306 for filename in split_files:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	307 with open(filename) as handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	308 for line in handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	309 if line.startswith('#'):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	310 if first:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	311 out.write(line)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	312 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	313 # line is no header and not a comment, we assume the first header is written to out and we set 'first' to False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	314 first = False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	315 out.write(line)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	316 out.close()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	317 merge = staticmethod(merge)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	318
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	319
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	320
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	321 class OBFS( Binary ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	322 """OpenBabel Fastsearch format (fs)."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	323 file_ext = 'fs'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	324 composite_type ='basic'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	325 allow_datatype_change = False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	326
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	327 MetadataElement( name="base_name", default='OpenBabel Fastsearch Index',
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	328 readonly=True, visible=True, optional=True,)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	329
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	330 def __init__(self,**kwd):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	331 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	332 A Fastsearch Index consists of a binary file with the fingerprints
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	333 and a pointer the actual molecule file.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	334 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	335 Binary.__init__(self, **kwd)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	336 self.add_composite_file('molecule.fs', is_binary = True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	337 description = 'OpenBabel Fastsearch Index' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	338 self.add_composite_file('molecule.sdf', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	339 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	340 self.add_composite_file('molecule.smi', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	341 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	342 self.add_composite_file('molecule.inchi', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	343 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	344 self.add_composite_file('molecule.mol2', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	345 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	346 self.add_composite_file('molecule.cml', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	347 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	348
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	349 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	350 """Set the peek and blurb text."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	351 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	352 dataset.peek = "OpenBabel Fastsearch Index"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	353 dataset.blurb = "OpenBabel Fastsearch Index"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	354 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	355 dataset.peek = "file does not exist"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	356 dataset.blurb = "file purged from disk"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	357
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	358 def display_peek( self, dataset ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	359 """Create HTML content, used for displaying peek."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	360 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	361 return dataset.peek
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	362 except:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	363 return "OpenBabel Fastsearch Index"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	364
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	365 def display_data(self, trans, data, preview=False, filename=None,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	366 to_ext=None, size=None, offset=None, **kwd):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	367 """Apparently an old display method, but still gets called.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	368
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	369 This allows us to format the data shown in the central pane via the "eye" icon.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	370 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	371 return "This is a OpenBabel Fastsearch format. You can speed up your similarity and substructure search with it."
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	372
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	373 def get_mime(self):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	374 """Returns the mime type of the datatype (pretend it is text for peek)"""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	375 return 'text/plain'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	376
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	377 def merge(split_files, output_file, extra_merge_args):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	378 """Merging Fastsearch indices is not supported."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	379 raise NotImplementedError("Merging Fastsearch indices is not supported.")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	380
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	381 def split( cls, input_datasets, subdir_generator_function, split_params):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	382 """Splitting Fastsearch indices is not supported."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	383 if split_params is None:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	384 return None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	385 raise NotImplementedError("Splitting Fastsearch indices is not possible.")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	386
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	387
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	388
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	389 class DRF( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	390 file_ext = "drf"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	391
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	392 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	393 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	394 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	395 """
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	396 dataset.metadata.number_of_molecules = count_special_lines('\"ligand id\"', dataset.file_name, invert = True)
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	397
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	398
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	399 class PHAR( GenericMolFile ):
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	400 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	401 Pharmacophore database format from silicos-it.
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	402 """
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	403 file_ext = "phar"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	404 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	405 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	406 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	407 dataset.blurb = "pharmacophore"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	408 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	409 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	410 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	411
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	412
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	413 class PDB( GenericMolFile ):
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	414 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	415 Protein Databank format.
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	416 http://www.wwpdb.org/documentation/format33/v3.3.html
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	417 """
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	418 file_ext = "pdb"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	419 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	420 headers = get_headers( filename, sep=' ', count=300 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	421 h = t = c = s = k = e = False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	422 for line in headers:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	423 section_name = line[0].strip()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	424 if section_name == 'HEADER':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	425 h = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	426 elif section_name == 'TITLE':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	427 t = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	428 elif section_name == 'COMPND':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	429 c = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	430 elif section_name == 'SOURCE':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	431 s = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	432 elif section_name == 'KEYWDS':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	433 k = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	434 elif section_name == 'EXPDTA':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	435 e = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	436
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	437 if htcsk*e == True:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	438 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	439 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	440 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	441
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	442 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	443 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	444 atom_numbers = count_special_lines("^ATOM", dataset.file_name)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	445 hetatm_numbers = count_special_lines("^HETATM", dataset.file_name)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	446 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	447 dataset.blurb = "%s atoms and %s HET-atoms" % (atom_numbers, hetatm_numbers)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	448 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	449 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	450 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	451
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	452
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	453 class grd( data.Text ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	454 file_ext = "grd"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	455 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	456 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	457 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	458 dataset.blurb = "grids for docking"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	459 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	460 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	461 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	462
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	463
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	464 class grdtgz( Binary ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	465 file_ext = "grd.tgz"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	466 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	467 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	468 dataset.peek = 'binary data'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	469 dataset.blurb = "compressed grids for docking"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	470 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	471 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	472 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	473
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	474
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	475 class InChI( Tabular ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	476 file_ext = "inchi"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	477 column_names = [ 'InChI' ]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	478 MetadataElement( name="columns", default=2, desc="Number of columns", readonly=True, visible=False )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	479 MetadataElement( name="column_types", default=['str'], param=metadata.ColumnTypesParameter, desc="Column types", readonly=True, visible=False )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	480 MetadataElement( name="number_of_molecules", default=0, desc="Number of molecules", readonly=True, visible=True, optional=True, no_value=0 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	481
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	482 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	483 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	484 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	485 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	486 dataset.metadata.number_of_molecules = self.count_data_lines(dataset)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	487
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	488 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	489 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	490 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	491 if (dataset.metadata.number_of_molecules == 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	492 dataset.blurb = "1 molecule"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	493 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	494 dataset.blurb = "%s molecules" % dataset.metadata.number_of_molecules
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	495 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	496 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	497 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	498 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	499
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	500 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	501 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	502 InChI files starts with 'InChI='
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	503 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	504 inchi_lines = get_headers( filename, sep=' ', count=10 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	505 for inchi in inchi_lines:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	506 if not inchi[0].startswith('InChI='):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	507 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	508 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	509
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	510
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	511 class SMILES( Tabular ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	512 file_ext = "smi"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	513 column_names = [ 'SMILES', 'TITLE' ]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	514 MetadataElement( name="columns", default=2, desc="Number of columns", readonly=True, visible=False )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	515 MetadataElement( name="column_types", default=['str','str'], param=metadata.ColumnTypesParameter, desc="Column types", readonly=True, visible=False )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	516 MetadataElement( name="number_of_molecules", default=0, desc="Number of molecules", readonly=True, visible=True, optional=True, no_value=0 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	517
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	518 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	519 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	520 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	521 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	522 dataset.metadata.number_of_molecules = self.count_data_lines(dataset)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	523
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	524 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	525 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	526 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	527 if (dataset.metadata.number_of_molecules == 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	528 dataset.blurb = "1 molecule"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	529 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	530 dataset.blurb = "%s molecules" % dataset.metadata.number_of_molecules
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	531 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	532 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	533 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	534 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	535
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	536
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	537 '''
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	538 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	539 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	540 Its hard or impossible to sniff a SMILES File. We can
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	541 try to import the first SMILES and check if it is a molecule, but
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	542 currently its not possible to use external libraries from the toolshed
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	543 in datatype definition files. TODO
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	544 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	545 self.molecule_number = count_lines( filename, non_empty = True )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	546 word_count = count_lines( filename )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	547
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	548 if self.molecule_number != word_count:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	549 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	550
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	551 if self.molecule_number > 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	552 # test first 3 SMILES
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	553 smiles_lines = get_headers( filename, sep='\t', count=3 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	554 for smiles_line in smiles_lines:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	555 if len(smiles_line) > 2:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	556 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	557 smiles = smiles_line[0]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	558 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	559 # if we have atoms, we have a molecule
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	560 if not len( pybel.readstring('smi', smiles).atoms ) > 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	561 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	562 except:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	563 # if convert fails its not a smiles string
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	564 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	565 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	566 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	567 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	568 '''
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	569
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	570
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	571
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	572 class CML( GenericXml ):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	573 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	574 Chemical Markup Language
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	575 http://cml.sourceforge.net/
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	576 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	577 file_ext = "cml"
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	578 MetadataElement( name="number_of_molecules", default=0, desc="Number of molecules", readonly=True, visible=True, optional=True, no_value=0 )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	579
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	580
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	581 def set_meta( self, dataset, **kwd ):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	582 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	583 Set the number of lines of data in dataset.
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	584 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	585 dataset.metadata.number_of_molecules = count_special_lines( '^\s*<molecule', dataset.file_name )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	586
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	587 def set_peek( self, dataset, is_multi_byte=False ):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	588 if not dataset.dataset.purged:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	589 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	590 if (dataset.metadata.number_of_molecules == 1):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	591 dataset.blurb = "1 molecule"
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	592 else:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	593 dataset.blurb = "%s molecules" % dataset.metadata.number_of_molecules
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	594 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	595 else:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	596 dataset.peek = 'file does not exist'
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	597 dataset.blurb = 'file purged from disk'
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	598
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	599 def sniff( self, filename ):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	600 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	601 Try to guess if the file is a CML file.
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	602 TODO: add true positive test, need to submit a CML example
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	603
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	604 >>> fname = get_test_fname( 'interval.interval' )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	605 >>> CML().sniff( fname )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	606 False
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	607 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	608 handle = open(filename)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	609 line = handle.readline()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	610 if line.strip() != '<?xml version="1.0"?>':
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	611 handle.close()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	612 return False
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	613 line = handle.readline()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	614 if line.strip().find('http://www.xml-cml.org/schema') == -1:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	615 handle.close()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	616 return False
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	617 handle.close()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	618 return True
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	619
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	620
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	621 def split( cls, input_datasets, subdir_generator_function, split_params):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	622 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	623 Split the input files by molecule records.
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	624 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	625 if split_params is None:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	626 return None
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	627
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	628 if len(input_datasets) > 1:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	629 raise Exception("CML-file splitting does not support multiple files")
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	630 input_files = [ds.file_name for ds in input_datasets]
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	631
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	632 chunk_size = None
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	633 if split_params['split_mode'] == 'number_of_parts':
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	634 raise Exception('Split mode "%s" is currently not implemented for CML-files.' % split_params['split_mode'])
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	635 elif split_params['split_mode'] == 'to_size':
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	636 chunk_size = int(split_params['split_size'])
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	637 else:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	638 raise Exception('Unsupported split mode %s' % split_params['split_mode'])
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	639
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	640 def _read_cml_records( filename ):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	641 lines = []
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	642 with open(filename) as handle:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	643 for line in handle:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	644 if line.lstrip().startswith('<?xml version="1.0"?>') or \
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	645 line.lstrip().startswith('<cml xmlns="http://www.xml-cml.org/schema') or \
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	646 line.lstrip().startswith('</cml>'):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	647 continue
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	648 lines.append( line )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	649 if line.lstrip().startswith('</molecule>'):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	650 yield lines
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	651 lines = []
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	652
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	653 header_lines = ['<?xml version="1.0"?>\n', '<cml xmlns="http://www.xml-cml.org/schema">\n']
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	654 footer_line = ['</cml>\n']
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	655 def _write_part_cml_file( accumulated_lines ):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	656 part_dir = subdir_generator_function()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	657 part_path = os.path.join(part_dir, os.path.basename(input_files[0]))
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	658 part_file = open(part_path, 'w')
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	659 part_file.writelines( header_lines )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	660 part_file.writelines( accumulated_lines )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	661 part_file.writelines( footer_line )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	662 part_file.close()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	663
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	664 try:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	665 cml_records = _read_cml_records( input_files[0] )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	666 cml_lines_accumulated = []
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	667 for counter, cml_record in enumerate( cml_records, start = 1):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	668 cml_lines_accumulated.extend( cml_record )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	669 if counter % chunk_size == 0:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	670 _write_part_cml_file( cml_lines_accumulated )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	671 cml_lines_accumulated = []
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	672 if cml_lines_accumulated:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	673 _write_part_cml_file( cml_lines_accumulated )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	674 except Exception, e:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	675 log.error('Unable to split files: %s' % str(e))
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	676 raise
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	677 split = classmethod(split)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	678
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	679
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	680 def merge(split_files, output_file):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	681 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	682 Merging CML files.
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	683 """
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	684 if len(split_files) == 1:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	685 #For one file only, use base class method (move/copy)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	686 return Text.merge(split_files, output_file)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	687 if not split_files:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	688 raise ValueError("Given no CML files, %r, to merge into %s" \
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	689 % (split_files, output_file))
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	690 with open(output_file, "w") as out:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	691 for filename in split_files:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	692 with open( filename ) as handle:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	693 header = handle.readline()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	694 if not header:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	695 raise ValueError("CML file %s was empty" % f)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	696 if not header.lstrip().startswith('<?xml version="1.0"?>'):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	697 out.write(header)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	698 raise ValueError("%s is not a valid XML file!" % f)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	699 line = handle.readline()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	700 header += line
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	701 if not line.lstrip().startswith('<cml xmlns="http://www.xml-cml.org/schema'):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	702 out.write(header)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	703 raise ValueError("%s is not a CML file!" % f)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	704 molecule_found = False
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	705 for line in handle.readlines():
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	706 # we found two required header lines, the next line should start with <molecule >
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	707 if line.lstrip().startswith('</cml>'):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	708 continue
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	709 if line.lstrip().startswith('<molecule'):
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	710 molecule_found = True
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	711 if molecule_found:
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	712 out.write( line )
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	713 out.write("</cml>\n")
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	714 merge = staticmethod(merge)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	715
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	716
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	717 if __name__ == '__main__':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	718 """
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	719 TODO: We need to figure out, how to put example files under /lib/galaxy/datatypes/test/ from a toolshed, so that doctest can work properly.
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	720 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	721 inchi = get_test_fname('drugbank_drugs.inchi')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	722 smiles = get_test_fname('drugbank_drugs.smi')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	723 sdf = get_test_fname('drugbank_drugs.sdf')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	724 fps = get_test_fname('50_chemfp_fingerprints_FPS1.fps')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	725 pdb = get_test_fname('2zbz.pdb')
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	726 cml = get_test_fname('/home/bag/Downloads/approved.cml')
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	727
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	728 print 'CML test'
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	729 print CML().sniff(cml), 'cml'
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	730 print CML().sniff(inchi)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	731 print CML().sniff(pdb)
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	732 CML().split()
1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	733 """
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	734 print 'SMILES test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	735 print SMILES().sniff(smiles), 'smi'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	736 print SMILES().sniff(inchi)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	737 print SMILES().sniff(pdb)
4 1a070566e9c6 Uploaded bgruening parents: 3 diff changeset	738 """
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	739 print 'InChI test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	740 print InChI().sniff(smiles)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	741 print InChI().sniff(sdf)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	742 print InChI().sniff(inchi), 'inchi'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	743
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	744 print 'FPS test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	745 print FPS().sniff(smiles)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	746 print FPS().sniff(sdf)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	747 f = FPS()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	748 print f.sniff(fps)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	749
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	750 print 'SDF test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	751 print SDF().sniff(smiles)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	752 print SDF().sniff(sdf), 'sdf'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	753 print SDF().sniff(fps)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	754
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	755 print 'PDB test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	756 print PDB().sniff(smiles)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	757 print PDB().sniff(sdf)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	758 print PDB().sniff(fps)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	759 print PDB().sniff(pdb), 'pdb'

Mercurial > repos > bgruening > molecule_datatypes

annotate molecules.py @ 11:18ff2d6e1dca default tip