test1: galaxy-tools/biobank/tools/build

annotate galaxy-tools/biobank/tools/build_miniped.py @ 4:f833f23d38a3 draft

Deleted selected files

author	ric
date	Thu, 22 Sep 2016 09:28:03 -0400
parents	43be74e62bfe
children

rev	line source
3 43be74e62bfe Uploaded ric parents: diff changeset	1 # BEGIN_COPYRIGHT
43be74e62bfe Uploaded ric parents: diff changeset	2 # END_COPYRIGHT
43be74e62bfe Uploaded ric parents: diff changeset	3
43be74e62bfe Uploaded ric parents: diff changeset	4 """
43be74e62bfe Uploaded ric parents: diff changeset	5 A rough example of basic pedigree info generation.
43be74e62bfe Uploaded ric parents: diff changeset	6 """
43be74e62bfe Uploaded ric parents: diff changeset	7
43be74e62bfe Uploaded ric parents: diff changeset	8 import csv, argparse, sys, os
43be74e62bfe Uploaded ric parents: diff changeset	9
43be74e62bfe Uploaded ric parents: diff changeset	10 from bl.vl.kb import KnowledgeBase as KB
43be74e62bfe Uploaded ric parents: diff changeset	11 from bl.vl.kb.drivers.omero.ehr import EHR
43be74e62bfe Uploaded ric parents: diff changeset	12 import bl.vl.individual.pedigree as ped
43be74e62bfe Uploaded ric parents: diff changeset	13 import bl.vl.utils.ome_utils as vlu
43be74e62bfe Uploaded ric parents: diff changeset	14 from bl.vl.utils import LOG_LEVELS, get_logger
43be74e62bfe Uploaded ric parents: diff changeset	15
43be74e62bfe Uploaded ric parents: diff changeset	16 DIAGNOSIS_ARCH = 'openEHR-EHR-EVALUATION.problem-diagnosis.v1'
43be74e62bfe Uploaded ric parents: diff changeset	17 DIAGNOSIS_FIELD = 'at0002.1'
43be74e62bfe Uploaded ric parents: diff changeset	18 T1D_ICD10 = 'icd10-cm:E10'
43be74e62bfe Uploaded ric parents: diff changeset	19 MS_ICD10 = 'icd10-cm:G35'
43be74e62bfe Uploaded ric parents: diff changeset	20 NEFRO_ICD10 = 'icd10-cm:E23.2'
43be74e62bfe Uploaded ric parents: diff changeset	21
43be74e62bfe Uploaded ric parents: diff changeset	22 PLINK_MISSING = -9
43be74e62bfe Uploaded ric parents: diff changeset	23 PLINK_UNAFFECTED = 1
43be74e62bfe Uploaded ric parents: diff changeset	24 PLINK_AFFECTED = 2
43be74e62bfe Uploaded ric parents: diff changeset	25
43be74e62bfe Uploaded ric parents: diff changeset	26 FIELDS = ["fam_label", "ind_label", "fat_label", "mot_label", "gender", "t1d_status", "ms_status", "nefro_status"]
43be74e62bfe Uploaded ric parents: diff changeset	27
43be74e62bfe Uploaded ric parents: diff changeset	28
43be74e62bfe Uploaded ric parents: diff changeset	29 def make_parser():
43be74e62bfe Uploaded ric parents: diff changeset	30 parser = argparse.ArgumentParser(description='build the first columns of a ped file from VL')
43be74e62bfe Uploaded ric parents: diff changeset	31 parser.add_argument('--logfile', type=str, help='log file (default=stderr)')
43be74e62bfe Uploaded ric parents: diff changeset	32 parser.add_argument('--loglevel', type=str, choices = LOG_LEVELS,
43be74e62bfe Uploaded ric parents: diff changeset	33 help='logging level', default='INFO')
43be74e62bfe Uploaded ric parents: diff changeset	34 parser.add_argument('-H', '--host', type=str, help='omero hostname')
43be74e62bfe Uploaded ric parents: diff changeset	35 parser.add_argument('-U', '--user', type=str, help='omero user')
43be74e62bfe Uploaded ric parents: diff changeset	36 parser.add_argument('-P', '--passwd', type=str, help='omero password')
43be74e62bfe Uploaded ric parents: diff changeset	37 parser.add_argument('-S', '--study', type=str, required=True,
43be74e62bfe Uploaded ric parents: diff changeset	38 help='a list of comma separated studies used to retrieve individuals that will be written to ped file')
43be74e62bfe Uploaded ric parents: diff changeset	39 parser.add_argument('--ofile', type=str, help='output file path',
43be74e62bfe Uploaded ric parents: diff changeset	40 required=True)
43be74e62bfe Uploaded ric parents: diff changeset	41 return parser
43be74e62bfe Uploaded ric parents: diff changeset	42
43be74e62bfe Uploaded ric parents: diff changeset	43 def build_families(individuals, logger):
43be74e62bfe Uploaded ric parents: diff changeset	44 # Individuals with only one parent will be considered like founders
43be74e62bfe Uploaded ric parents: diff changeset	45 # for i in individuals:
43be74e62bfe Uploaded ric parents: diff changeset	46 # if ((i.mother is None) or (i.father is None)):
43be74e62bfe Uploaded ric parents: diff changeset	47 # i.mother = None
43be74e62bfe Uploaded ric parents: diff changeset	48 # i.father = None
43be74e62bfe Uploaded ric parents: diff changeset	49 logger.info("individuals: %d" % len(individuals))
43be74e62bfe Uploaded ric parents: diff changeset	50 #logger.info("individuals: with 0 or 2 parents: %d" % len(not_one_parent))
43be74e62bfe Uploaded ric parents: diff changeset	51 logger.info("analyzing pedigree")
43be74e62bfe Uploaded ric parents: diff changeset	52 founders, non_founders, dangling, couples, children = ped.analyze(
43be74e62bfe Uploaded ric parents: diff changeset	53 individuals
43be74e62bfe Uploaded ric parents: diff changeset	54 )
43be74e62bfe Uploaded ric parents: diff changeset	55 logger.info("splitting into families")
43be74e62bfe Uploaded ric parents: diff changeset	56 return ped.split_disjoint(individuals, children)
43be74e62bfe Uploaded ric parents: diff changeset	57
43be74e62bfe Uploaded ric parents: diff changeset	58
43be74e62bfe Uploaded ric parents: diff changeset	59 def main(argv):
43be74e62bfe Uploaded ric parents: diff changeset	60 parser = make_parser()
43be74e62bfe Uploaded ric parents: diff changeset	61 args = parser.parse_args(argv)
43be74e62bfe Uploaded ric parents: diff changeset	62
43be74e62bfe Uploaded ric parents: diff changeset	63 logger = get_logger('build_miniped', level=args.loglevel,
43be74e62bfe Uploaded ric parents: diff changeset	64 filename=args.logfile)
43be74e62bfe Uploaded ric parents: diff changeset	65
43be74e62bfe Uploaded ric parents: diff changeset	66 try:
43be74e62bfe Uploaded ric parents: diff changeset	67 host = args.host or vlu.ome_host()
43be74e62bfe Uploaded ric parents: diff changeset	68 user = args.user or vlu.ome_user()
43be74e62bfe Uploaded ric parents: diff changeset	69 passwd = args.passwd or vlu.ome_passwd()
43be74e62bfe Uploaded ric parents: diff changeset	70 except ValueError, ve:
43be74e62bfe Uploaded ric parents: diff changeset	71 logger.critical(ve)
43be74e62bfe Uploaded ric parents: diff changeset	72 sys.exit(ve)
43be74e62bfe Uploaded ric parents: diff changeset	73
43be74e62bfe Uploaded ric parents: diff changeset	74 kb = KB(driver='omero')(host, user, passwd)
43be74e62bfe Uploaded ric parents: diff changeset	75 logger.debug('Loading all individuals from omero')
43be74e62bfe Uploaded ric parents: diff changeset	76 all_inds = kb.get_objects(kb.Individual) # store all inds to cache
43be74e62bfe Uploaded ric parents: diff changeset	77 logger.debug('%d individuals loaded' % len(all_inds))
43be74e62bfe Uploaded ric parents: diff changeset	78 studies = [kb.get_study(s) for s in args.study.split(',')]
43be74e62bfe Uploaded ric parents: diff changeset	79 # Removing None values
43be74e62bfe Uploaded ric parents: diff changeset	80 studies = set(studies)
43be74e62bfe Uploaded ric parents: diff changeset	81 try:
43be74e62bfe Uploaded ric parents: diff changeset	82 studies.remove(None)
43be74e62bfe Uploaded ric parents: diff changeset	83 except KeyError:
43be74e62bfe Uploaded ric parents: diff changeset	84 pass
43be74e62bfe Uploaded ric parents: diff changeset	85 studies = list(studies)
43be74e62bfe Uploaded ric parents: diff changeset	86 if len(studies) == 0:
43be74e62bfe Uploaded ric parents: diff changeset	87 logger.error('No matches found for labels %s, stopping program' % args.study)
43be74e62bfe Uploaded ric parents: diff changeset	88 sys.exit(2)
43be74e62bfe Uploaded ric parents: diff changeset	89 enrolled_map = {}
43be74e62bfe Uploaded ric parents: diff changeset	90 for study in studies:
43be74e62bfe Uploaded ric parents: diff changeset	91 logger.info('Loading enrolled individuals for study %s' % study.label)
43be74e62bfe Uploaded ric parents: diff changeset	92 enrolled = kb.get_enrolled(study)
43be74e62bfe Uploaded ric parents: diff changeset	93 logger.debug('%d individuals loaded' % len(enrolled))
43be74e62bfe Uploaded ric parents: diff changeset	94 for en in enrolled:
43be74e62bfe Uploaded ric parents: diff changeset	95 if en.individual.id not in enrolled_map:
43be74e62bfe Uploaded ric parents: diff changeset	96 enrolled_map[en.individual.id] = ('%s:%s' % (en.study.label, en.studyCode),
43be74e62bfe Uploaded ric parents: diff changeset	97 en.individual)
43be74e62bfe Uploaded ric parents: diff changeset	98 else:
43be74e62bfe Uploaded ric parents: diff changeset	99 logger.debug('Individual %s already mapped' % en.individual.id)
43be74e62bfe Uploaded ric parents: diff changeset	100 logger.debug('Loading EHR records')
43be74e62bfe Uploaded ric parents: diff changeset	101 ehr_records = kb.get_ehr_records()
43be74e62bfe Uploaded ric parents: diff changeset	102 logger.debug('%s EHR records loaded' % len(ehr_records))
43be74e62bfe Uploaded ric parents: diff changeset	103 ehr_records_map = {}
43be74e62bfe Uploaded ric parents: diff changeset	104 for r in ehr_records:
43be74e62bfe Uploaded ric parents: diff changeset	105 ehr_records_map.setdefault(r['i_id'], []).append(r)
43be74e62bfe Uploaded ric parents: diff changeset	106 affection_map = {}
43be74e62bfe Uploaded ric parents: diff changeset	107 for ind_id, ehr_recs in ehr_records_map.iteritems():
43be74e62bfe Uploaded ric parents: diff changeset	108 affection_map[ind_id] = dict(t1d=PLINK_UNAFFECTED, ms=PLINK_UNAFFECTED,
43be74e62bfe Uploaded ric parents: diff changeset	109 nefro=PLINK_UNAFFECTED)
43be74e62bfe Uploaded ric parents: diff changeset	110 ehr = EHR(ehr_recs)
43be74e62bfe Uploaded ric parents: diff changeset	111 if ehr.matches(DIAGNOSIS_ARCH, DIAGNOSIS_FIELD, T1D_ICD10):
43be74e62bfe Uploaded ric parents: diff changeset	112 affection_map[ind_id]['t1d'] = PLINK_AFFECTED
43be74e62bfe Uploaded ric parents: diff changeset	113 if ehr.matches(DIAGNOSIS_ARCH, DIAGNOSIS_FIELD, MS_ICD10):
43be74e62bfe Uploaded ric parents: diff changeset	114 affection_map[ind_id]['ms'] = PLINK_AFFECTED
43be74e62bfe Uploaded ric parents: diff changeset	115 if ehr.matches(DIAGNOSIS_ARCH, DIAGNOSIS_FIELD, NEFRO_ICD10):
43be74e62bfe Uploaded ric parents: diff changeset	116 affection_map[ind_id]['nefro'] = PLINK_AFFECTED
43be74e62bfe Uploaded ric parents: diff changeset	117
43be74e62bfe Uploaded ric parents: diff changeset	118 immuno_inds = [i for (ind_id, (st_code, i)) in enrolled_map.iteritems()]
43be74e62bfe Uploaded ric parents: diff changeset	119 families = build_families(immuno_inds, logger)
43be74e62bfe Uploaded ric parents: diff changeset	120 logger.info("found %d families" % len(families))
43be74e62bfe Uploaded ric parents: diff changeset	121
43be74e62bfe Uploaded ric parents: diff changeset	122 def resolve_label(i):
43be74e62bfe Uploaded ric parents: diff changeset	123 try:
43be74e62bfe Uploaded ric parents: diff changeset	124 return enrolled_map[i.id][0]
43be74e62bfe Uploaded ric parents: diff changeset	125 except KeyError:
43be74e62bfe Uploaded ric parents: diff changeset	126 return i.id
43be74e62bfe Uploaded ric parents: diff changeset	127
43be74e62bfe Uploaded ric parents: diff changeset	128 def resolve_pheno(i):
43be74e62bfe Uploaded ric parents: diff changeset	129 try:
43be74e62bfe Uploaded ric parents: diff changeset	130 immuno_affection = affection_map[i.id]
43be74e62bfe Uploaded ric parents: diff changeset	131 except KeyError:
43be74e62bfe Uploaded ric parents: diff changeset	132 return PLINK_MISSING, PLINK_MISSING, PLINK_MISSING
43be74e62bfe Uploaded ric parents: diff changeset	133 return immuno_affection["t1d"], immuno_affection["ms"], immuno_affection["nefro"]
43be74e62bfe Uploaded ric parents: diff changeset	134
43be74e62bfe Uploaded ric parents: diff changeset	135 kb.Gender.map_enums_values(kb)
43be74e62bfe Uploaded ric parents: diff changeset	136 gender_map = lambda x: 2 if x == kb.Gender.FEMALE else 1
43be74e62bfe Uploaded ric parents: diff changeset	137
43be74e62bfe Uploaded ric parents: diff changeset	138 logger.info("writing miniped")
43be74e62bfe Uploaded ric parents: diff changeset	139 with open(args.ofile, "w") as f:
43be74e62bfe Uploaded ric parents: diff changeset	140 writer = csv.DictWriter(f, FIELDS, delimiter="\t", lineterminator="\n")
43be74e62bfe Uploaded ric parents: diff changeset	141 for k, fam in enumerate(families):
43be74e62bfe Uploaded ric parents: diff changeset	142 fam_label = "FAM_%d" % (k+1)
43be74e62bfe Uploaded ric parents: diff changeset	143 for i in fam:
43be74e62bfe Uploaded ric parents: diff changeset	144 r = {}
43be74e62bfe Uploaded ric parents: diff changeset	145 r["fam_label"] = fam_label
43be74e62bfe Uploaded ric parents: diff changeset	146 r["ind_label"] = resolve_label(i)
43be74e62bfe Uploaded ric parents: diff changeset	147 r["fat_label"] = 0 if (i.father is None or i.father not in fam) else resolve_label(i.father)
43be74e62bfe Uploaded ric parents: diff changeset	148 r["mot_label"] = 0 if (i.mother is None or i.mother not in fam) else resolve_label(i.mother)
43be74e62bfe Uploaded ric parents: diff changeset	149 r["gender"] = gender_map(i.gender)
43be74e62bfe Uploaded ric parents: diff changeset	150 r["t1d_status"], r["ms_status"], r["nefro_status"] = resolve_pheno(i)
43be74e62bfe Uploaded ric parents: diff changeset	151 writer.writerow(r)
43be74e62bfe Uploaded ric parents: diff changeset	152
43be74e62bfe Uploaded ric parents: diff changeset	153
43be74e62bfe Uploaded ric parents: diff changeset	154 if __name__ == "__main__":
43be74e62bfe Uploaded ric parents: diff changeset	155 main(sys.argv[1:])

Mercurial > repos > ric > test1

annotate galaxy-tools/biobank/tools/build_miniped.py @ 4:f833f23d38a3 draft