fasta_extract: fasta_extract.py annotate

annotate fasta_extract.py @ 0:bc3f2a5c7b53 draft

Uploaded

author	greg
date	Sun, 10 Jan 2016 13:03:12 -0500
parents
children	3fb7f36c2c8a

rev	line source
0 bc3f2a5c7b53 Uploaded greg parents: diff changeset	1 import argparse
bc3f2a5c7b53 Uploaded greg parents: diff changeset	2 import csv
bc3f2a5c7b53 Uploaded greg parents: diff changeset	3 import os
bc3f2a5c7b53 Uploaded greg parents: diff changeset	4 import sys
bc3f2a5c7b53 Uploaded greg parents: diff changeset	5
bc3f2a5c7b53 Uploaded greg parents: diff changeset	6 from fasta_extract_utils import Fasta
bc3f2a5c7b53 Uploaded greg parents: diff changeset	7
bc3f2a5c7b53 Uploaded greg parents: diff changeset	8
bc3f2a5c7b53 Uploaded greg parents: diff changeset	9 def reverse_complement(bases):
bc3f2a5c7b53 Uploaded greg parents: diff changeset	10 complements = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
bc3f2a5c7b53 Uploaded greg parents: diff changeset	11 return ''.join(complements[b.upper()] for b in reversed(bases))
bc3f2a5c7b53 Uploaded greg parents: diff changeset	12
bc3f2a5c7b53 Uploaded greg parents: diff changeset	13
bc3f2a5c7b53 Uploaded greg parents: diff changeset	14 def get_output_path(hid, subtract_from_start, add_to_end, extend_existing, consider_strand, orphan=False):
bc3f2a5c7b53 Uploaded greg parents: diff changeset	15 attrs = 'u%dd%d' % (subtract_from_start, add_to_end)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	16 if extend_existing:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	17 attrs += 'x'
bc3f2a5c7b53 Uploaded greg parents: diff changeset	18 if consider_strand:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	19 attrs += '_s'
bc3f2a5c7b53 Uploaded greg parents: diff changeset	20 if orphan:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	21 attrs += '_orphan'
bc3f2a5c7b53 Uploaded greg parents: diff changeset	22 format = 'gff'
bc3f2a5c7b53 Uploaded greg parents: diff changeset	23 else:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	24 format = 'fasta'
bc3f2a5c7b53 Uploaded greg parents: diff changeset	25 return os.path.join('output_dir', 'fasta_extract-%s_on_data_%d.%s' % (attrs, hid, format))
bc3f2a5c7b53 Uploaded greg parents: diff changeset	26
bc3f2a5c7b53 Uploaded greg parents: diff changeset	27
bc3f2a5c7b53 Uploaded greg parents: diff changeset	28 def stop_err(msg):
bc3f2a5c7b53 Uploaded greg parents: diff changeset	29 sys.stderr.write(msg)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	30 sys.exit(1)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	31
bc3f2a5c7b53 Uploaded greg parents: diff changeset	32
bc3f2a5c7b53 Uploaded greg parents: diff changeset	33 parser = argparse.ArgumentParser()
bc3f2a5c7b53 Uploaded greg parents: diff changeset	34 parser.add_argument('--genome_file', dest='genome_file', help='Reference genome fasta index file.')
bc3f2a5c7b53 Uploaded greg parents: diff changeset	35 parser.add_argument('--subtract_from_start', dest='subtract_from_start', type=int, help='Distance to subtract from start.')
bc3f2a5c7b53 Uploaded greg parents: diff changeset	36 parser.add_argument('--add_to_end', dest='add_to_end', type=int, help='Distance to add to end.')
bc3f2a5c7b53 Uploaded greg parents: diff changeset	37 parser.add_argument('--extend_existing', dest='extend_existing', help='Extend existing start/end rather or from computed midpoint.')
bc3f2a5c7b53 Uploaded greg parents: diff changeset	38 parser.add_argument('--strand', dest='strand', help='Consider strandedness: reverse complement extracted sequence on reverse strand.')
bc3f2a5c7b53 Uploaded greg parents: diff changeset	39 args = parser.parse_args()
bc3f2a5c7b53 Uploaded greg parents: diff changeset	40
bc3f2a5c7b53 Uploaded greg parents: diff changeset	41 fasta = Fasta(args.genome_file)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	42
bc3f2a5c7b53 Uploaded greg parents: diff changeset	43 for (input_filename, hid) in args.inputs:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	44 extend_existing = args.extend_existing == 'existing'
bc3f2a5c7b53 Uploaded greg parents: diff changeset	45 consider_strand = args.strand == 'yes'
bc3f2a5c7b53 Uploaded greg parents: diff changeset	46 reader = csv.reader(open(input_filename, 'rU'), delimiter='\t')
bc3f2a5c7b53 Uploaded greg parents: diff changeset	47 fasta_output_path = get_output_path(args.hid,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	48 args.subtract_from_start,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	49 args.add_to_end,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	50 extend_existing,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	51 consider_strand)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	52 output = open(fasta_output_path, 'wb')
bc3f2a5c7b53 Uploaded greg parents: diff changeset	53 gff_output_path = get_output_path(args.hid,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	54 args.subtract_from_start,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	55 args.add_to_end,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	56 extend_existing,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	57 consider_strand,
bc3f2a5c7b53 Uploaded greg parents: diff changeset	58 orphan=True)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	59 orphan_writer = csv.writer(open(gff_output_path, 'wb'), delimiter='\t')
bc3f2a5c7b53 Uploaded greg parents: diff changeset	60 for row in reader:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	61 if len(row) != 9 or row[0].startswith('#'):
bc3f2a5c7b53 Uploaded greg parents: diff changeset	62 continue
bc3f2a5c7b53 Uploaded greg parents: diff changeset	63 try:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	64 cname = row[0]
bc3f2a5c7b53 Uploaded greg parents: diff changeset	65 start = int(row[3])
bc3f2a5c7b53 Uploaded greg parents: diff changeset	66 end = int(row[4])
bc3f2a5c7b53 Uploaded greg parents: diff changeset	67 strand = row[6]
bc3f2a5c7b53 Uploaded greg parents: diff changeset	68 if extend_existing:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	69 start -= args.subtract_from_start
bc3f2a5c7b53 Uploaded greg parents: diff changeset	70 end += args.add_to_end
bc3f2a5c7b53 Uploaded greg parents: diff changeset	71 else:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	72 midpoint = (start + end) // 2
bc3f2a5c7b53 Uploaded greg parents: diff changeset	73 start = midpoint - args.subtract_from_start
bc3f2a5c7b53 Uploaded greg parents: diff changeset	74 end = midpoint + args.add_to_end
bc3f2a5c7b53 Uploaded greg parents: diff changeset	75 if 1 <= start and end <= len(fasta[cname]):
bc3f2a5c7b53 Uploaded greg parents: diff changeset	76 output.write('>%s:%s-%s_%s\n' % (cname, start, end, strand))
bc3f2a5c7b53 Uploaded greg parents: diff changeset	77 bases = fasta[cname][start-1:end]
bc3f2a5c7b53 Uploaded greg parents: diff changeset	78 if consider_strand and strand == '-':
bc3f2a5c7b53 Uploaded greg parents: diff changeset	79 bases = reverse_complement(bases)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	80 output.write('%s\n' % bases)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	81 else:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	82 orphan_writer.writerow(row)
bc3f2a5c7b53 Uploaded greg parents: diff changeset	83 except Exception, e:
bc3f2a5c7b53 Uploaded greg parents: diff changeset	84 stop_err(str(e))

Mercurial > repos > greg > fasta_extract

annotate fasta_extract.py @ 0:bc3f2a5c7b53 draft