data_manager_fetch_refseq: data_manager/fetch

planemo upload for repository https://github.com/pvanheus/refseq_fasta_data_manager commit a0125981706495e0a8be4fafe2eb1af3f0cfdaa3-dirty

comparison

equal deleted inserted replaced

-:300562c726cc
+:a4ee45e7237b
 #!/usr/bin/env python
 from __future__ import print_function, division
 import argparse
 from datetime import date
+import functools
 import gzip
 import json
 from multiprocessing import Process, Queue
 import os
 import os.path
 with open_output(os.path.join(out_dir, output_filename), 'wb') as output_file:
 while input_filename != 'STOP':
 if debug:
 print('Reading', input_filename, file=sys.stderr)
 with gzip.open(input_filename) as input_file:
-data = input_file.read(chunk_size)
+read_chunk = functools.partial(input_file.read, (chunk_size))
-while data != '':
+for data in iter(read_chunk, ''):  # use '' as a sentinel to stop the loop
 output_file.write(data)
-data = input_file.read(chunk_size)
+os.unlink(input_filename)
-# os.unlink(input_filename)
 input_filename = conn.get()
 def get_refseq_division(division_name, mol_types, output_directory, debug=False, compress=False):
 base_url = 'https://ftp.ncbi.nlm.nih.gov/refseq/release/'
 valid_divisions = set(['archea', 'bacteria', 'complete', 'fungi', 'invertebrate', 'mitochondrion', 'other',

Mercurial > repos > sanbi-uwc > data_manager_fetch_refseq