fetch_interval: fetch_interval.py annotate

annotate fetch_interval.py @ 2:9422cd200be0 draft default tip

Uploaded

author	morinlab
date	Sun, 04 Dec 2016 18:24:31 -0500
parents	588cdb7e20b2
children

rev	line source
1 588cdb7e20b2 Uploaded morinlab parents: diff changeset	1 import argparse
588cdb7e20b2 Uploaded morinlab parents: diff changeset	2 import math
588cdb7e20b2 Uploaded morinlab parents: diff changeset	3 import subprocess
588cdb7e20b2 Uploaded morinlab parents: diff changeset	4
588cdb7e20b2 Uploaded morinlab parents: diff changeset	5 if __name__ == "__main__":
588cdb7e20b2 Uploaded morinlab parents: diff changeset	6 desc = "Create BAM interval file for easily parallelism in Galaxy"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	7 parser = argparse.ArgumentParser(description=desc)
588cdb7e20b2 Uploaded morinlab parents: diff changeset	8 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	9 "--mode", "-m",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	10 required=True,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	11 choices=['by_rname', 'by_chunk']
588cdb7e20b2 Uploaded morinlab parents: diff changeset	12 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	13 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	14 "--input", "-i",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	15 type=str,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	16 required=True,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	17 help="Input BAM file"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	18 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	19 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	20 "--output", "-o",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	21 type=str,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	22 required=True,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	23 help="Output BED file"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	24 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	25 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	26 "--order_file", "-of",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	27 type=str,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	28 required=False,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	29 help="Generate a file with the original contig order"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	30 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	31 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	32 "--chunk_size", "-s",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	33 type=int,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	34 required=False,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	35 default=50000000,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	36 help="The number of bases to include in a chunk interval, required when 'by_chunks' specified"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	37 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	38 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	39 "--chromosome",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	40 action="store_true",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	41 required=False,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	42 help="Add the Chromosome to the Interval File"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	43 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	44 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	45 "--start_position",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	46 action="store_true",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	47 required=False,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	48 help="Add the Start Position to the Interval File"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	49 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	50 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	51 "--end_position",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	52 action="store_true",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	53 required=False,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	54 help="Add the End Position to the Interval File"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	55 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	56 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	57 "--interval",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	58 action="store_true",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	59 required=False,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	60 help="Add the entire interval to the interval file"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	61 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	62 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	63 "--prefixes_to_ignore",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	64 nargs="+",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	65 required=False,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	66 help="Ignore Intervals that contains the following prefix"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	67 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	68 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	69 "--group_according_to_largest_chromosome",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	70 action="store_true",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	71 required=False,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	72 help="Output a set of files whose length do not sum larger then the largest chromosome"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	73 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	74 parser.add_argument(
588cdb7e20b2 Uploaded morinlab parents: diff changeset	75 "--output_dir",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	76 type=str,
588cdb7e20b2 Uploaded morinlab parents: diff changeset	77 default="outputs",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	78 help="Output directory for collection output"
588cdb7e20b2 Uploaded morinlab parents: diff changeset	79 )
588cdb7e20b2 Uploaded morinlab parents: diff changeset	80 args = parser.parse_args()
588cdb7e20b2 Uploaded morinlab parents: diff changeset	81
588cdb7e20b2 Uploaded morinlab parents: diff changeset	82
588cdb7e20b2 Uploaded morinlab parents: diff changeset	83 order_file = None
588cdb7e20b2 Uploaded morinlab parents: diff changeset	84 if not args.order_file == None:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	85 order_file = open(args.order_file, 'w')
588cdb7e20b2 Uploaded morinlab parents: diff changeset	86
588cdb7e20b2 Uploaded morinlab parents: diff changeset	87 rnames = []
588cdb7e20b2 Uploaded morinlab parents: diff changeset	88 data = {}
588cdb7e20b2 Uploaded morinlab parents: diff changeset	89 commands = [
588cdb7e20b2 Uploaded morinlab parents: diff changeset	90 "samtools", "view",
588cdb7e20b2 Uploaded morinlab parents: diff changeset	91 "-H", args.input
588cdb7e20b2 Uploaded morinlab parents: diff changeset	92 ]
588cdb7e20b2 Uploaded morinlab parents: diff changeset	93 p = subprocess.Popen(commands, stdout=subprocess.PIPE)
588cdb7e20b2 Uploaded morinlab parents: diff changeset	94 out, err = p.communicate()
588cdb7e20b2 Uploaded morinlab parents: diff changeset	95 seqs = []
588cdb7e20b2 Uploaded morinlab parents: diff changeset	96 lengths = []
588cdb7e20b2 Uploaded morinlab parents: diff changeset	97 for line in out.split("\n"):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	98 if not line.find("@SQ") == -1:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	99 tmp = line.split("\t")
588cdb7e20b2 Uploaded morinlab parents: diff changeset	100 seqs.append(tmp[1][3:])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	101 lengths.append(tmp[2][3:])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	102
588cdb7e20b2 Uploaded morinlab parents: diff changeset	103
588cdb7e20b2 Uploaded morinlab parents: diff changeset	104 chunk_size = args.chunk_size
588cdb7e20b2 Uploaded morinlab parents: diff changeset	105
588cdb7e20b2 Uploaded morinlab parents: diff changeset	106 for i in range(len(seqs)):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	107 rname = seqs[i]
588cdb7e20b2 Uploaded morinlab parents: diff changeset	108 length = lengths[i]
588cdb7e20b2 Uploaded morinlab parents: diff changeset	109
588cdb7e20b2 Uploaded morinlab parents: diff changeset	110 if not rname in data:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	111 rnames.append(rname)
588cdb7e20b2 Uploaded morinlab parents: diff changeset	112 data[rname] = []
588cdb7e20b2 Uploaded morinlab parents: diff changeset	113
588cdb7e20b2 Uploaded morinlab parents: diff changeset	114 if args.mode == 'by_rname':
588cdb7e20b2 Uploaded morinlab parents: diff changeset	115 chunk_size = int(length)
588cdb7e20b2 Uploaded morinlab parents: diff changeset	116 for i in range(int(math.ceil(float(length) / float(chunk_size)))):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	117 if (i+1) * chunk_size > length:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	118 data[rname].append([rname,(i * chunk_size) + 1, length])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	119 else:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	120 data[rname].append([rname,(i * chunk_size) + 1, (i+1) * chunk_size])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	121
588cdb7e20b2 Uploaded morinlab parents: diff changeset	122 if args.group_according_to_largest_chromosome :
588cdb7e20b2 Uploaded morinlab parents: diff changeset	123 ids = []
588cdb7e20b2 Uploaded morinlab parents: diff changeset	124 id_to_length = []
588cdb7e20b2 Uploaded morinlab parents: diff changeset	125 bins_to_length = []
588cdb7e20b2 Uploaded morinlab parents: diff changeset	126 bins_to_id = []
588cdb7e20b2 Uploaded morinlab parents: diff changeset	127 for rname in rnames:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	128 ids.append(rname)
588cdb7e20b2 Uploaded morinlab parents: diff changeset	129
588cdb7e20b2 Uploaded morinlab parents: diff changeset	130 for i in range(len(ids)):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	131 id_to_length.append(data[ids[i]][-1][2])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	132
588cdb7e20b2 Uploaded morinlab parents: diff changeset	133 max_length = 0
588cdb7e20b2 Uploaded morinlab parents: diff changeset	134 for i in range(len(id_to_length)):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	135 if max_length < id_to_length[i]:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	136 max_length = id_to_length[i]
588cdb7e20b2 Uploaded morinlab parents: diff changeset	137
588cdb7e20b2 Uploaded morinlab parents: diff changeset	138 for i in range(len(ids)):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	139 rname = ids[i]
588cdb7e20b2 Uploaded morinlab parents: diff changeset	140 if any([not rname.find(x) == -1 for x in args.prefixes_to_ignore]):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	141 continue
588cdb7e20b2 Uploaded morinlab parents: diff changeset	142 if not order_file == None:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	143 order_file.write(''.join([rname, '\n']))
588cdb7e20b2 Uploaded morinlab parents: diff changeset	144
588cdb7e20b2 Uploaded morinlab parents: diff changeset	145 if bins_to_id == []:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	146 bins_to_id.append([rname])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	147 bins_to_length.append(id_to_length[i])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	148 else:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	149 added = False
588cdb7e20b2 Uploaded morinlab parents: diff changeset	150 for bin_id in range(len(bins_to_length)):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	151 if bins_to_length[bin_id] + id_to_length[i] < max_length:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	152 bins_to_id[bin_id].append(rname)
588cdb7e20b2 Uploaded morinlab parents: diff changeset	153 bins_to_length[bin_id] += id_to_length[i]
588cdb7e20b2 Uploaded morinlab parents: diff changeset	154 added = True
588cdb7e20b2 Uploaded morinlab parents: diff changeset	155 break
588cdb7e20b2 Uploaded morinlab parents: diff changeset	156 if added == False:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	157 bins_to_id.append([rname])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	158 bins_to_length.append(id_to_length[i])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	159
588cdb7e20b2 Uploaded morinlab parents: diff changeset	160 if not order_file == None:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	161 order_file.close()
588cdb7e20b2 Uploaded morinlab parents: diff changeset	162
588cdb7e20b2 Uploaded morinlab parents: diff changeset	163 for i in range(len(bins_to_id)):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	164 output = open(''.join(["./outputs/samp", str(i+1),".bed"]), 'w')
588cdb7e20b2 Uploaded morinlab parents: diff changeset	165 for rname in bins_to_id[i]:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	166 line = ''.join(['%s\n' % rname])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	167 output.write(line)
588cdb7e20b2 Uploaded morinlab parents: diff changeset	168 output.close()
588cdb7e20b2 Uploaded morinlab parents: diff changeset	169
588cdb7e20b2 Uploaded morinlab parents: diff changeset	170
588cdb7e20b2 Uploaded morinlab parents: diff changeset	171 else:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	172 output = open(args.output,'w')
588cdb7e20b2 Uploaded morinlab parents: diff changeset	173 for i in range(len(seqs)):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	174 rname = seqs[i]
588cdb7e20b2 Uploaded morinlab parents: diff changeset	175 for interval in data[rname]:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	176 if any([not interval[0].find(x) == -1 for x in args.prefixes_to_ignore]):
588cdb7e20b2 Uploaded morinlab parents: diff changeset	177 continue
588cdb7e20b2 Uploaded morinlab parents: diff changeset	178 line = ''
588cdb7e20b2 Uploaded morinlab parents: diff changeset	179 if args.interval:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	180 line = ''.join([line, '%s:%s-%s\t' % (interval[0], interval[1], interval[2])])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	181 if args.chromosome:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	182 line = ''.join([line,'%s\t' % interval[0]])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	183 if args.start_position:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	184 line = ''.join([line,'%s\t' % interval[1]])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	185 if args.end_position:
588cdb7e20b2 Uploaded morinlab parents: diff changeset	186 line = ''.join([line,'%s\t' % interval[2]])
588cdb7e20b2 Uploaded morinlab parents: diff changeset	187 output.write(''.join([line[:-1], '\n']))

Mercurial > repos > morinlab > fetch_interval

annotate fetch_interval.py @ 2:9422cd200be0 draft default tip