Mercurial > repos > sanbi-uwc > data_manager_rnastar_index_builder

--- a/data_manager/rnastar_index_builder.py	Mon Feb 15 05:03:07 2016 -0500
+++ b/data_manager/rnastar_index_builder.py	Mon Feb 15 06:55:55 2016 -0500
@@ -9,8 +9,9 @@
 import shlex
 import sys

-def get_id_name( params, dbkey, fasta_description=None):
-    #TODO: ensure sequence_id is unique and does not already appear in location file
+
+def get_id_name(params, dbkey, fasta_description=None):
+    # TODO: ensure sequence_id is unique and does not already appear in location file
     sequence_id = params['param_dict']['sequence_id']
     if not sequence_id:
         sequence_id = dbkey
@@ -22,16 +23,11 @@
             sequence_name = dbkey
     return sequence_id, sequence_name

+
 def make_rnastar_index(output_directory, fasta_filename):
-    #STAR
-    #    --runMode genomeGenerate
-    #    --genomeDir tempstargenomedir
-    #    --genomeFastaFiles $input1
-    #    --runThreadsN \${GALAXY_SLOTS:-1}
-    #    --genomeChrBinNbits $advanced_options.chr_bin_nbits
-
     if exists(output_directory) and not isdir(output_directory):
-        print("Output directory path already exists but is not a directory: {}".format(output_directory), file=sys.stderr)
+        print("Output directory path already exists but is not a directory: {}".format(output_directory),
+              file=sys.stderr)
     elif not exists(output_directory):
         mkdir(output_directory)

@@ -40,35 +36,39 @@
     else:
         nslots = 1

-    # cmdline_str = 'STAR --runMode genomeGenerate --genomeDir {} --genomeFastaFiles {} --runThreadsN {}'.format(output_directory,
-    #                                                                                                            fasta_filename,
-    #                                                                                                            nslots)
-    # cmdline = shlex.split(cmdline_str)
-    cmdline = ('touch', '{}/foo'.format(output_directory))
+    cmdline_str = 'STAR --runMode genomeGenerate --genomeDir {} --genomeFastaFiles {} --runThreadsN {}'.format(
+        output_directory,
+        fasta_filename,
+        nslots)
+    cmdline = shlex.split(cmdline_str)
+    # cmdline = ('touch', '{}/foo'.format(output_directory))
     try:
         check_call(cmdline)
     except CalledProcessError:
         print("Error building RNA STAR index", file=sys.stderr)
-    return(output_directory)
+    return (output_directory)
+

-parser = argparse.ArgumentParser(description="Generate RNA STAR genome index and JSON describing this")
-parser.add_argument('output_filename')
-parser.add_argument('--fasta_filename')
-parser.add_argument('--fasta_dbkey')
-parser.add_argument('--fasta_description', default=None)
-parser.add_argument('--data_table_name', default='rnastar_index')
-args = parser.parse_args()
-
-filename = args.output_filename
+def main():
+    parser = argparse.ArgumentParser(description="Generate RNA STAR genome index and JSON describing this")
+    parser.add_argument('output_filename')
+    parser.add_argument('--fasta_filename')
+    parser.add_argument('--fasta_dbkey')
+    parser.add_argument('--fasta_description', default=None)
+    parser.add_argument('--data_table_name', default='rnastar_index')
+    args = parser.parse_args()

-params = load(open(filename, 'rb'))
-output_directory = params[ 'output_data' ][0]['extra_files_path']
-makedirs( output_directory )
-data_manager_dict = {}
+    filename = args.output_filename
+
+    params = load(open(filename, 'rb'))
+    output_directory = params['output_data'][0]['extra_files_path']
+    makedirs(output_directory)

-make_rnastar_index(output_directory, args.fasta_filename)
-(sequence_id, sequence_name) = get_id_name(params, args.fasta_dbkey, args.fasta_description)
-data_table_entry = dict(value=sequence_id, dbkey=args.fasta_dbkey, name=sequence_name, path=output_directory)
+    make_rnastar_index(output_directory, args.fasta_filename)
+    (sequence_id, sequence_name) = get_id_name(params, args.fasta_dbkey, args.fasta_description)
+    data_table_entry = dict(value=sequence_id, dbkey=args.fasta_dbkey, name=sequence_name, path=output_directory)

-output_datatable_dict = dict(data_tables={args.data_table_name : [data_table_entry]})
-open( filename, 'wb' ).write( dumps( output_datatable_dict ) )
+    output_datatable_dict = dict(data_tables={args.data_table_name: [data_table_entry]})
+    open(filename, 'wb').write(dumps(output_datatable_dict))
+
+if __name__ == "__main__": main()