test1: galaxy-tools/biobank/utils/format_vessels_by_individual

annotate galaxy-tools/biobank/utils/format_vessels_by_individual_output.py @ 3:43be74e62bfe draft

Uploaded

author	ric
date	Thu, 22 Sep 2016 08:57:04 -0400
parents
children

rev	line source
3 43be74e62bfe Uploaded ric parents: diff changeset	1 # This tool format output files from kb_query vessels_by_individual
43be74e62bfe Uploaded ric parents: diff changeset	2 # into a tabular format with all data related to an individual grouped
43be74e62bfe Uploaded ric parents: diff changeset	3 # in each row. The tool needs as input a mapping file like
43be74e62bfe Uploaded ric parents: diff changeset	4 #
43be74e62bfe Uploaded ric parents: diff changeset	5 # individual_id label
43be74e62bfe Uploaded ric parents: diff changeset	6 # V12311 A_STUDY:A_CODE
43be74e62bfe Uploaded ric parents: diff changeset	7 # V135115 A_STUDY:B_CODE
43be74e62bfe Uploaded ric parents: diff changeset	8 #
43be74e62bfe Uploaded ric parents: diff changeset	9 # in order to use a known label and not VIDs for each row
43be74e62bfe Uploaded ric parents: diff changeset	10
43be74e62bfe Uploaded ric parents: diff changeset	11 import csv, sys, argparse, logging
43be74e62bfe Uploaded ric parents: diff changeset	12
43be74e62bfe Uploaded ric parents: diff changeset	13 LOG_FORMAT = '%(asctime)s\|%(levelname)-8s\|%(message)s'
43be74e62bfe Uploaded ric parents: diff changeset	14 LOG_DATEFMT = '%Y-%m-%d %H:%M:%S'
43be74e62bfe Uploaded ric parents: diff changeset	15 LOG_LEVELS = ['DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL']
43be74e62bfe Uploaded ric parents: diff changeset	16
43be74e62bfe Uploaded ric parents: diff changeset	17 def make_parser():
43be74e62bfe Uploaded ric parents: diff changeset	18 parser = argparse.ArgumentParser(description='format kb_query vessels_by_individual output file to tabular format')
43be74e62bfe Uploaded ric parents: diff changeset	19 parser.add_argument('--logfile', type=str, help='log file (default=stderr)')
43be74e62bfe Uploaded ric parents: diff changeset	20 parser.add_argument('--loglevel', type=str, choices=LOG_LEVELS,
43be74e62bfe Uploaded ric parents: diff changeset	21 help='logging level', default='INFO')
43be74e62bfe Uploaded ric parents: diff changeset	22 parser.add_argument('--in_file', type=str, required=True,
43be74e62bfe Uploaded ric parents: diff changeset	23 help='input file (obtained using kb_query vessels by individual tool)')
43be74e62bfe Uploaded ric parents: diff changeset	24 parser.add_argument('--map_file', type=str, required=True,
43be74e62bfe Uploaded ric parents: diff changeset	25 help='mapping file')
43be74e62bfe Uploaded ric parents: diff changeset	26 parser.add_argument('--out_file', type=str, required=True,
43be74e62bfe Uploaded ric parents: diff changeset	27 help='output file')
43be74e62bfe Uploaded ric parents: diff changeset	28 return parser
43be74e62bfe Uploaded ric parents: diff changeset	29
43be74e62bfe Uploaded ric parents: diff changeset	30 def get_mapping(records, grouper_field, grouped_field):
43be74e62bfe Uploaded ric parents: diff changeset	31 mapping = {}
43be74e62bfe Uploaded ric parents: diff changeset	32 for rec in records:
43be74e62bfe Uploaded ric parents: diff changeset	33 mapping.setdefault(rec[grouper_field], []).append(rec[grouped_field])
43be74e62bfe Uploaded ric parents: diff changeset	34 return mapping
43be74e62bfe Uploaded ric parents: diff changeset	35
43be74e62bfe Uploaded ric parents: diff changeset	36 def get_labels_mapping(reader, logger):
43be74e62bfe Uploaded ric parents: diff changeset	37 rows = [r for r in reader]
43be74e62bfe Uploaded ric parents: diff changeset	38 lmap = get_mapping(rows, 'individual', 'label')
43be74e62bfe Uploaded ric parents: diff changeset	39 logger.info('%d labels grouped for %d individuals' % (len(rows),
43be74e62bfe Uploaded ric parents: diff changeset	40 len(lmap)))
43be74e62bfe Uploaded ric parents: diff changeset	41 return lmap
43be74e62bfe Uploaded ric parents: diff changeset	42
43be74e62bfe Uploaded ric parents: diff changeset	43 def get_vessels_mapping(reader, logger):
43be74e62bfe Uploaded ric parents: diff changeset	44 rows = [r for r in reader]
43be74e62bfe Uploaded ric parents: diff changeset	45 vmap = get_mapping(rows, 'individual', 'vessel_label')
43be74e62bfe Uploaded ric parents: diff changeset	46 logger.info('%d vessels grouped for %d individuals' % (len(rows),
43be74e62bfe Uploaded ric parents: diff changeset	47 len(vmap)))
43be74e62bfe Uploaded ric parents: diff changeset	48 return vmap
43be74e62bfe Uploaded ric parents: diff changeset	49
43be74e62bfe Uploaded ric parents: diff changeset	50 def build_record(label, vessels):
43be74e62bfe Uploaded ric parents: diff changeset	51 record = {'individual_label' : '--'.join(label)}
43be74e62bfe Uploaded ric parents: diff changeset	52 for v in vessels:
43be74e62bfe Uploaded ric parents: diff changeset	53 record['vessel_%d' % (vessels.index(v) + 1)] = v
43be74e62bfe Uploaded ric parents: diff changeset	54 return record
43be74e62bfe Uploaded ric parents: diff changeset	55
43be74e62bfe Uploaded ric parents: diff changeset	56 def main(argv):
43be74e62bfe Uploaded ric parents: diff changeset	57 parser = make_parser()
43be74e62bfe Uploaded ric parents: diff changeset	58 args = parser.parse_args(argv)
43be74e62bfe Uploaded ric parents: diff changeset	59
43be74e62bfe Uploaded ric parents: diff changeset	60 log_level = getattr(logging, args.loglevel)
43be74e62bfe Uploaded ric parents: diff changeset	61 kwargs = {'format' : LOG_FORMAT,
43be74e62bfe Uploaded ric parents: diff changeset	62 'datefmt' : LOG_DATEFMT,
43be74e62bfe Uploaded ric parents: diff changeset	63 'level' : log_level}
43be74e62bfe Uploaded ric parents: diff changeset	64 if args.logfile:
43be74e62bfe Uploaded ric parents: diff changeset	65 kwargs['filename'] = args.logfile
43be74e62bfe Uploaded ric parents: diff changeset	66 logging.basicConfig(**kwargs)
43be74e62bfe Uploaded ric parents: diff changeset	67 logger = logging.getLogger()
43be74e62bfe Uploaded ric parents: diff changeset	68
43be74e62bfe Uploaded ric parents: diff changeset	69 with open(args.map_file) as mf:
43be74e62bfe Uploaded ric parents: diff changeset	70 reader = csv.DictReader(mf, delimiter='\t')
43be74e62bfe Uploaded ric parents: diff changeset	71 labels_map = get_labels_mapping(reader, logger)
43be74e62bfe Uploaded ric parents: diff changeset	72
43be74e62bfe Uploaded ric parents: diff changeset	73 with open(args.in_file) as inf:
43be74e62bfe Uploaded ric parents: diff changeset	74 reader = csv.DictReader(inf, delimiter='\t')
43be74e62bfe Uploaded ric parents: diff changeset	75 vessels_map = get_vessels_mapping(reader, logger)
43be74e62bfe Uploaded ric parents: diff changeset	76
43be74e62bfe Uploaded ric parents: diff changeset	77 max_vessels_count = max([len(v) for v in vessels_map.values()])
43be74e62bfe Uploaded ric parents: diff changeset	78 csv_fields = ['individual_label']
43be74e62bfe Uploaded ric parents: diff changeset	79 for x in xrange(max_vessels_count):
43be74e62bfe Uploaded ric parents: diff changeset	80 csv_fields.append('vessel_%d' % (x+1))
43be74e62bfe Uploaded ric parents: diff changeset	81
43be74e62bfe Uploaded ric parents: diff changeset	82 with open(args.out_file, 'w') as ofile:
43be74e62bfe Uploaded ric parents: diff changeset	83 writer = csv.DictWriter(ofile, csv_fields, delimiter='\t')
43be74e62bfe Uploaded ric parents: diff changeset	84 writer.writeheader()
43be74e62bfe Uploaded ric parents: diff changeset	85 for ind, vessels in vessels_map.iteritems():
43be74e62bfe Uploaded ric parents: diff changeset	86 writer.writerow(build_record(labels_map[ind], vessels))
43be74e62bfe Uploaded ric parents: diff changeset	87
43be74e62bfe Uploaded ric parents: diff changeset	88 logger.info('Job completed')
43be74e62bfe Uploaded ric parents: diff changeset	89
43be74e62bfe Uploaded ric parents: diff changeset	90 if __name__ == '__main__':
43be74e62bfe Uploaded ric parents: diff changeset	91 main(sys.argv[1:])

Mercurial > repos > ric > test1

annotate galaxy-tools/biobank/utils/format_vessels_by_individual_output.py @ 3:43be74e62bfe draft