data_manager_fetch_reference_data: data_manager/fetch_reference

comparison data_manager/fetch_reference_data.py @ 5:2f926e7d623d draft

planemo upload

author	yating-l
date	Wed, 03 May 2017 17:43:57 -0400
parents	464d75111b16
children	2eb398f3649c

comparison

equal deleted inserted replaced

-:464d75111b16
+:2f926e7d623d
 def get_reference_id_name(params):
 genome_id = params['param_dict']['genome_id']
 genome_name = params['param_dict']['genome_name']
 return genome_id, genome_name
-def download_from_GlimmerHMM(data_manager_dict, params, target_directory, sequence_id, sequence_name ):
+def get_url(params):
-GlimmerHMM_DOWNLOAD_URL = 'ftp://ccb.jhu.edu/pub/software/glimmerhmm/GlimmerHMM-3.0.4.tar.gz'
+trained_url = params['param_dict']['trained_url']
-GlimmerHMM_TRAINED_DIR = os.path.join('GlimmerHMM', 'trained_dir', sequence_id)
+return trained_url
-with tarfile.open('GlimmerHMM-3.0.4.tar', mode='r:*') as tar:
+def download_from_GlimmerHMM(data_manager_dict, target_directory, sequence_id, sequence_name, trained_dir):
+if not trained_dir:
+trained_dir = 'ftp://ccb.jhu.edu/pub/software/glimmerhmm/GlimmerHMM-3.0.4.tar.gz'
+#Download trained data, ref: https://dzone.com/articles/how-download-file-python
+f = urllib2.urlopen(trained_dir)
+data = f.read()
+downloadpath = 'tmp'
+os.mkdir(downloadpath)
+filepath = os.path.join(downloadpath, 'GlimmerHMM-3.0.4.tar')
+with open(filepath, 'wb') as code:
+code.write(data)
+with tarfile.open(filepath, mode='r:*') as tar:
 subdir = [
 tarinfo for tarinfo in tar.getmembers()
 if sequence_id in tarinfo.name
 ]
 tar.extractall(members=subdir)
+GlimmerHMM_TRAINED_DIR = os.path.join(downloadpath, 'GlimmerHMM', 'trained_dir', sequence_id)
 glimmerhmm_trained_target_dir = os.path.join(target_directory, sequence_id)
 shutil.copytree(GlimmerHMM_TRAINED_DIR, glimmerhmm_trained_target_dir)
 data_table_entry = dict(value=sequence_id, name=sequence_name, path=glimmerhmm_trained_target_dir)
 _add_data_table_entry(data_manager_dict, data_table_entry)
+cleanup_before_exit('tmp')
-cleanup_before_exit(GlimmerHMM_TRAINED_DIR)
+def _add_data_table_entry(data_manager_dict, data_table_entry):
-def _add_data_table_entry( data_manager_dict, data_table_entry ):
 data_manager_dict['data_tables'] = data_manager_dict.get( 'data_tables', {} )
 data_manager_dict['data_tables']['reference_data'] = data_manager_dict['data_tables'].get('reference_data', [])
 data_manager_dict['data_tables']['reference_data'].append( data_table_entry )
 return data_manager_dict
-REFERENCE_SOURCE_TO_DOWNLOAD = dict(glimmerhmm=download_from_GlimmerHMM)
 def main():
 #Parse Command Line
 parser = argparse.ArgumentParser()
 parser.add_argument('-o', '--out', help='Output file')
 target_directory = params['output_data'][0]['extra_files_path']
 os.mkdir(target_directory)
 data_manager_dict = {}
 sequence_id, sequence_name = get_reference_id_name(params)
+trained_dir = get_url(params)
 #Fetch the FASTA
-REFERENCE_SOURCE_TO_DOWNLOAD[params['param_dict']['trained_dir']](data_manager_dict, params, target_directory, sequence_id, sequence_name)
+download_from_GlimmerHMM(data_manager_dict, target_directory, sequence_id, sequence_name, trained_dir)
 #save info to json file
 open(filename, 'wb').write(to_json_string(data_manager_dict))
 if __name__ == "__main__":
 main()

Mercurial > repos > yating-l > data_manager_fetch_reference_data

comparison data_manager/fetch_reference_data.py @ 5:2f926e7d623d draft