mpagenomics_normalize: preprocess.py comparison

comparison preprocess.py @ 1:4d25dec9707e

correction

author	blanck
date	Tue, 28 Apr 2015 11:23:47 +0200
parents	a89bae08bf2d
children	54d549210759

comparison

equal deleted inserted replaced

-:a89bae08bf2d
+:4d25dec9707e
 import re
 import shutil
 import sys
 import subprocess
 import zipfile
-import optparse
 def main():
-parser = optparse.OptionParser()
+extra_files_directory = sys.argv[1]
-parser.add_option('-s', action="store", dest='summary')
+report = sys.argv[4]
-parser.add_option('-p', action="store", dest='new_file_path')
+new_files_directory = sys.argv[6]
-parser.add_option('-c', action="store", dest='inputcdffull_name')
+dataset=sys.argv[7]
-parser.add_option('-f', action="store", dest='inputufl_name')
+cdffull_name=sys.argv[9]
-parser.add_option('-g', action="store", dest='inputugp_name')
+ufl_name=sys.argv[10]
-parser.add_option('-a', action="store", dest='inputacs_name')
+ugp_name=sys.argv[11]
-parser.add_option('-d', action="store", dest='inputcdffull')
+acs_name=sys.argv[12]
-parser.add_option('-v', action="store", dest='inputufl')
+cdffull=sys.argv[14]
-parser.add_option('-h', action="store", dest='inputugp')
+ufl=sys.argv[15]
-parser.add_option('-b', action="store", dest='inputacs')
+ugp=sys.argv[16]
-parser.add_option('-t', action="store", dest='tumorcsv')
+acs=sys.argv[17]
-parser.add_option('-y', action="store", dest='settingsType')
+tumor=sys.argv[18]
-parser.add_option('-o', action="store", dest='outputgraph')
+settingType=sys.argv[19]
-parser.add_option('-z', action="store", dest='zipfigures')
+outputgraph=sys.argv[20]
-parser.add_option('-k', action="store", dest='outputlog')
+zipfigures=sys.argv[21]
-parser.add_option('-l', action="store", dest='log')
+outputlog=sys.argv[22]
-parser.add_option('-u', action="store", dest='user_id')
+log=sys.argv[23]
+user=sys.argv[24]
-parser.add_option('-i', action="append", dest='inputFile', default=[])
-parser.add_option('-n', action='append', dest='inputFileName', default=[])
+extra_file_names = sorted(os.listdir(extra_files_directory))
-options, args = parser.parse_args()
+if (cdffull_name.count(",") != 0):
-outputFileName=options.outputFile
+chipType=cdffull_name.split(",",1)[0]
+tagExt=cdffull_name.split(",",1)[1]
-print options.inputFile
+tag=tagExt.split(".",1)[0]
-print options.inputFileName
+else:
+chipType=cdffull_name.split(".",1)[0]
-dataSetName="dataset"
+tag=""
-destinationPath=os.path.join(options.new_file_path, user, dataset)
+data_dir = os.path.join(new_files_directory, user, dataset)
-mpagenomics_dir = os.path.join(destinationPath,"mpagenomics",user)
+mpagenomics_dir = os.path.join(new_files_directory, "mpagenomics",user)
-data_dir = os.path.join(options.new_file_path, user)
 try:
 os.makedirs(data_dir)
 except:
 shutil.rmtree(data_dir)
 os.makedirs(data_dir)
 if (not os.path.isdir(mpagenomics_dir)):
 os.makedirs(mpagenomics_dir)
+for name in extra_file_names:
+source = os.path.join(extra_files_directory, name)
+# Strip _task_XXX from end of name
+name_match = re.match(r"^\d+_task_(.*).dat$", name)
+if name_match:
+name = name_match.group(1)
+else:
+# Skip indices, composite extra_files_paths, etc...
+continue
+#escaped_name = name.replace("_", "-")
+#dataset_name = "%s" % (name, 'visible', ext, db_key)
+destination = os.path.join(data_dir, name)
+_copy(source, destination)
+#       datasets_created.append(name)
-for inputFile, inputFileName in zip(options.inputFile,options.inputFileName):
-source = inputFile
-destination=os.path.join(data_dir,inputFileName)
-os.symlink(source,destination)
-if (cdffull_name.count(",") != 0):
-chipType=cdffull_name.split(",",1)[0]
-tagExt=cdffull_name.split(",",1)[1]
-tag=tagExt.split(".",1)[0]
-else:
-chipType=cdffull_name.split(".",1)[0]
-tag=""
 _copy(cdffull,os.path.join(data_dir, cdffull_name))
 _copy(ugp,os.path.join(data_dir, ugp_name))
 _copy(ufl,os.path.join(data_dir, ufl_name))
 _copy(acs,os.path.join(data_dir, acs_name))
 fig_dir = os.path.join("mpagenomics", user, "figures", dataset, "signal")
 abs_fig_dir = os.path.join(new_files_directory, fig_dir)
+retcode = _preprocess(chipType, dataset, mpagenomics_dir, data_dir, new_files_directory, tumor, settingType, outputgraph, outputlog, log, tag)
-retcode = _preprocess(chipType, dataSetName, mpagenomics_dir, data_dir, options.new_file_path, options.tumorcsv, options.settingType, options.outputgraph, options.outputlog, options.log, tag)
 if (retcode == 0):
 if (os.path.isdir(abs_fig_dir)) and (outputgraph == "TRUE"):
 new_files = os.listdir(abs_fig_dir)
 zipbuf = zipfile.ZipFile(os.path.join(abs_fig_dir, zipfigures), 'w', zipfile.ZIP_DEFLATED)
 for current_file in new_files:
 fn = os.path.join(abs_fig_dir, current_file)
 relfn = fn[len(abs_fig_dir) + len(os.sep):]
 zipbuf.write(fn, relfn)
 f = open(report, "w")
 # Create report
 try:
 for name in extra_file_names:
 f.write("%s\t%s\t%s\n" %(re.match(r"^\d+_task_(.*).dat$", name).group(1),dataset,chipType))
 finally:
 shutil.rmtree(data_dir)
 f.close()
 sys.exit(retcode)
 sys.exit(retcode)
 def _copy(source, destination):
 try:
 os.link(source, destination)
 except:

Mercurial > repos > sblanck > mpagenomics_normalize

comparison preprocess.py @ 1:4d25dec9707e