ensemb_rep_gvl: variant_effect_predictor/Bio/DB/NCBIHelper.pm annotate

annotate variant_effect_predictor/Bio/DB/NCBIHelper.pm @ 0:2bc9b66ada89 draft default tip

Uploaded

author	mahtabm
date	Thu, 11 Apr 2013 06:29:17 -0400
parents
children

rev	line source
0 2bc9b66ada89 Uploaded mahtabm parents: diff changeset	1 # $Id: NCBIHelper.pm,v 1.24.2.2 2003/06/12 09:29:38 heikki Exp $
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	2 #
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	3 # BioPerl module for Bio::DB::NCBIHelper
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	4 #
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	5 # Cared for by Jason Stajich
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	6 #
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	7 # Copyright Jason Stajich
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	8 #
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	9 # You may distribute this module under the same terms as perl itself
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	10 #
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	11 # POD documentation - main docs before the code
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	12 #
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	13 # Interfaces with new WebDBSeqI interface
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	14
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	15 =head1 NAME
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	16
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	17 Bio::DB::NCBIHelper - A collection of routines useful for queries to
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	18 NCBI databases.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	19
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	20 =head1 SYNOPSIS
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	21
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	22 #Do not use this module directly.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	23
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	24 # get a Bio::DB::NCBIHelper object somehow
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	25 my $seqio = $db->get_Stream_by_acc(['MUSIGHBA1']);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	26 foreach my $seq ( $seqio->next_seq ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	27 # process seq
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	28 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	29
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	30 =head1 DESCRIPTION
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	31
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	32 Provides a single place to setup some common methods for querying NCBI
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	33 web databases. This module just centralizes the methods for
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	34 constructing a URL for querying NCBI GenBank and NCBI GenPept and the
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	35 common HTML stripping done in L<postprocess_data>().
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	36
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	37 The base NCBI query URL used is
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	38 http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	39
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	40 =head1 FEEDBACK
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	41
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	42 =head2 Mailing Lists
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	43
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	44 User feedback is an integral part of the
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	45 evolution of this and other Bioperl modules. Send
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	46 your comments and suggestions preferably to one
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	47 of the Bioperl mailing lists. Your participation
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	48 is much appreciated.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	49
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	50 bioperl-l@bioperl.org - General discussion
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	51 http://bioperl.org/MailList.shtml - About the mailing lists
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	52
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	53 =head2 Reporting Bugs
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	54
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	55 Report bugs to the Bioperl bug tracking system to
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	56 help us keep track the bugs and their resolution.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	57 Bug reports can be submitted via email or the
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	58 web:
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	59
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	60 bioperl-bugs@bio.perl.org
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	61 http://bugzilla.bioperl.org/
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	62
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	63 =head1 AUTHOR - Jason Stajich
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	64
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	65 Email jason@bioperl.org
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	66
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	67 =head1 APPENDIX
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	68
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	69 The rest of the documentation details each of the
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	70 object methods. Internal methods are usually
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	71 preceded with a _
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	72
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	73 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	74
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	75 # Let the code begin...
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	76
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	77 package Bio::DB::NCBIHelper;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	78 use strict;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	79 use vars qw(@ISA $HOSTBASE %CGILOCATION %FORMATMAP
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	80 $DEFAULTFORMAT $MAX_ENTRIES $VERSION);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	81
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	82 use Bio::DB::WebDBSeqI;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	83 use Bio::DB::Query::GenBank;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	84 use HTTP::Request::Common;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	85 use URI;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	86 use Bio::Root::IO;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	87 use Bio::DB::RefSeq;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	88 use Bio::Root::Root;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	89
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	90 @ISA = qw(Bio::DB::WebDBSeqI Bio::Root::Root);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	91 $VERSION = '0.8';
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	92
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	93 BEGIN {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	94 $MAX_ENTRIES = 19000;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	95 $HOSTBASE = 'http://eutils.ncbi.nlm.nih.gov';
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	96 %CGILOCATION = (
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	97 'batch' => ['post' => '/entrez/eutils/efetch.fcgi'],
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	98 'query' => ['get' => '/entrez/eutils/efetch.fcgi'],
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	99 'single' => ['get' => '/entrez/eutils/efetch.fcgi'],
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	100 'version'=> ['get' => '/entrez/eutils/efetch.fcgi'],
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	101 'gi' => ['get' => '/entrez/eutils/efetch.fcgi'],
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	102 );
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	103
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	104 %FORMATMAP = ( 'gb' => 'genbank',
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	105 'gp' => 'genbank',
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	106 'fasta' => 'fasta',
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	107 );
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	108
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	109 $DEFAULTFORMAT = 'gb';
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	110 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	111
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	112 # the new way to make modules a little more lightweight
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	113
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	114 sub new {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	115 my ($class, @args ) = @_;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	116 my $self = $class->SUPER::new(@args);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	117 return $self;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	118 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	119
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	120
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	121 =head2 get_params
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	122
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	123 Title : get_params
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	124 Usage : my %params = $self->get_params($mode)
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	125 Function: Returns key,value pairs to be passed to NCBI database
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	126 for either 'batch' or 'single' sequence retrieval method
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	127 Returns : a key,value pair hash
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	128 Args : 'single' or 'batch' mode for retrieval
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	129
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	130 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	131
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	132 sub get_params {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	133 my ($self, $mode) = @_;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	134 $self->throw("subclass did not implement get_params");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	135 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	136
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	137 =head2 default_format
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	138
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	139 Title : default_format
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	140 Usage : my $format = $self->default_format
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	141 Function: Returns default sequence format for this module
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	142 Returns : string
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	143 Args : none
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	144
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	145 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	146
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	147 sub default_format {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	148 return $DEFAULTFORMAT;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	149 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	150
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	151 =head2 get_request
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	152
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	153 Title : get_request
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	154 Usage : my $url = $self->get_request
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	155 Function: HTTP::Request
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	156 Returns :
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	157 Args : %qualifiers = a hash of qualifiers (ids, format, etc)
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	158
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	159 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	160
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	161 sub get_request {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	162 my ($self, @qualifiers) = @_;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	163 my ($mode, $uids, $format, $query) = $self->_rearrange([qw(MODE UIDS
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	164 FORMAT QUERY)],
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	165 @qualifiers);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	166
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	167 $mode = lc $mode;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	168 ($format) = $self->request_format() unless ( defined $format);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	169 if( !defined $mode \|\| $mode eq '' ) { $mode = 'single'; }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	170 my %params = $self->get_params($mode);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	171 if( ! %params ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	172 $self->throw("must specify a valid retrieval mode 'single' or 'batch' not '$mode'")
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	173 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	174 my $url = URI->new($HOSTBASE . $CGILOCATION{$mode}[1]);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	175
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	176 unless( defined $uids or defined $query) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	177 $self->throw("Must specify a query or list of uids to fetch");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	178 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	179
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	180 if ($uids) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	181 if( ref($uids) =~ /array/i ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	182 $uids = join(",", @$uids);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	183 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	184 $params{'id'} = $uids;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	185 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	186
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	187 elsif ($query && $query->can('cookie')) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	188 @params{'WebEnv','query_key'} = $query->cookie;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	189 $params{'db'} = $query->db;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	190 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	191
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	192 elsif ($query) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	193 $params{'id'} = join ',',$query->ids;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	194 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	195
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	196 $params{'rettype'} = $format;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	197 if ($CGILOCATION{$mode}[0] eq 'post') {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	198 return POST $url,[%params];
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	199 } else {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	200 $url->query_form(%params);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	201 $self->debug("url is $url \n");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	202 return GET $url;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	203 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	204 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	205
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	206 =head2 get_Stream_by_batch
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	207
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	208 Title : get_Stream_by_batch
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	209 Usage : $seq = $db->get_Stream_by_batch($ref);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	210 Function: Retrieves Seq objects from Entrez 'en masse', rather than one
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	211 at a time. For large numbers of sequences, this is far superior
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	212 than get_Stream_by_[id/acc]().
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	213 Example :
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	214 Returns : a Bio::SeqIO stream object
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	215 Args : $ref : either an array reference, a filename, or a filehandle
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	216 from which to get the list of unique ids/accession numbers.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	217
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	218 NOTE: deprecated API. Use get_Stream_by_id() instead.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	219
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	220 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	221
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	222 *get_Stream_by_batch = sub {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	223 my $self = shift;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	224 $self->deprecated('get_Stream_by_batch() is deprecated; use get_Stream_by_id() instead');
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	225 $self->get_Stream_by_id(@_)
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	226 };
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	227
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	228 =head2 get_Stream_by_query
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	229
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	230 Title : get_Stream_by_query
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	231 Usage : $seq = $db->get_Stream_by_query($query);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	232 Function: Retrieves Seq objects from Entrez 'en masse', rather than one
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	233 at a time. For large numbers of sequences, this is far superior
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	234 than get_Stream_by_[id/acc]().
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	235 Example :
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	236 Returns : a Bio::SeqIO stream object
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	237 Args : $query : An Entrez query string or a
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	238 Bio::DB::Query::GenBank object. It is suggested that you
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	239 create a Bio::DB::Query::GenBank object and get the entry
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	240 count before you fetch a potentially large stream.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	241
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	242 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	243
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	244 sub get_Stream_by_query {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	245 my ($self, $query) = @_;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	246 unless (ref $query && $query->can('query')) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	247 $query = Bio::DB::Query::GenBank->new($query);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	248 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	249 return $self->get_seq_stream('-query' => $query, '-mode'=>'query');
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	250 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	251
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	252 =head2 postprocess_data
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	253
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	254 Title : postprocess_data
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	255 Usage : $self->postprocess_data ( 'type' => 'string',
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	256 'location' => \$datastr);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	257 Function: process downloaded data before loading into a Bio::SeqIO
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	258 Returns : void
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	259 Args : hash with two keys - 'type' can be 'string' or 'file'
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	260 - 'location' either file location or string
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	261 reference containing data
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	262
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	263 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	264
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	265 # the default method, works for genbank/genpept, other classes should
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	266 # override it with their own method.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	267
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	268 sub postprocess_data {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	269 my ($self, %args) = @_;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	270 my $data;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	271 my $type = uc $args{'type'};
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	272 my $location = $args{'location'};
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	273 if( !defined $type \|\| $type eq '' \|\| !defined $location) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	274 return;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	275 } elsif( $type eq 'STRING' ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	276 $data = $$location;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	277 } elsif ( $type eq 'FILE' ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	278 open(TMP, $location) or $self->throw("could not open file $location");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	279 my @in = <TMP>;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	280 close TMP;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	281 $data = join("", @in);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	282 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	283
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	284 # transform links to appropriate descriptions
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	285 if ($data =~ /\nCONTIG\s+/) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	286 $self->warn("CONTIG found. GenBank get_Stream_by_acc about to run.");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	287 my(@batch,@accession,%accessions,@location,$id,
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	288 $contig,$stream,$aCount,$cCount,$gCount,$tCount);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	289
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	290 # process GenBank CONTIG join(...) into two arrays
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	291 $data =~ /(?:CONTIG\s+join\()((?:.+\n)+)(?:\/\/)/;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	292 $contig = $1;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	293 $contig =~ s/\n\|\)//g;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	294 foreach (split /\s,\s/,$contig){
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	295 if (/>(.+)<.+>:(.+)/) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	296 ($id) = split /\./, $1;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	297 push @accession, $id;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	298 push @location, $2;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	299 $accessions{$id}->{'count'}++;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	300 } elsif( /([\w\.]+):(.+)/ ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	301 ($id) = split /\./, $1;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	302 $accessions{$id}->{'count'}++;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	303 push @accession, $id;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	304 push @location, $2;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	305 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	306 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	307
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	308 # grab multiple sequences by batch and join based location variable
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	309 my @unique_accessions = keys %accessions;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	310 $stream = $self->get_Stream_by_acc(\@unique_accessions);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	311 $contig = "";
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	312 my $ct = 0;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	313 while( my $seq = $stream->next_seq() ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	314 if( $seq->accession_number !~ /$unique_accessions[$ct]/ ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	315 printf STDERR "warning, %s does not match %s\n",
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	316 $seq->accession_number, $unique_accessions[$ct];
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	317 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	318 $accessions{$unique_accessions[$ct]}->{'seq'} = $seq;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	319 $ct++;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	320 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	321 for (my $i = 0; $i < @accession; $i++) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	322 my $seq = $accessions{$accession[$i]}->{'seq'};
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	323 unless( defined $seq ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	324 # seq not cached, get next sequence
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	325 $self->warn("unable to find sequence $accession[$i]\n");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	326 return undef;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	327 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	328 my($start,$end) = split(/\.\./, $location[$i]);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	329 $contig .= $seq->subseq($start,$end-$start);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	330 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	331
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	332 # count number of each letter in sequence
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	333 $aCount = () = $contig =~ /a/ig;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	334 $cCount = () = $contig =~ /c/ig;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	335 $gCount = () = $contig =~ /g/ig;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	336 $tCount = () = $contig =~ /t/ig;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	337
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	338 # remove everything after and including CONTIG
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	339 $data =~ s/(CONTIG[\s\S]+)$//i;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	340
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	341 # build ORIGIN part of data file using sequence and counts
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	342 $data .= "BASE COUNT $aCount a $cCount c $gCount g $tCount t\n";
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	343 $data .= "ORIGIN \n";
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	344 $data .= "$contig\n//";
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	345 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	346 else {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	347 $data =~ s/<a\s+href\s=.+>\s(\S+)\s<\s\/a\s*\>/$1/ig;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	348 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	349
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	350 # fix gt and lt
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	351 $data =~ s/>/>/ig;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	352 $data =~ s/</</ig;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	353 if( $type eq 'FILE' ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	354 open(TMP, ">$location") or $self->throw("couldn't overwrite file $location");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	355 print TMP $data;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	356 close TMP;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	357 } elsif ( $type eq 'STRING' ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	358 ${$args{'location'}} = $data;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	359 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	360 $self->debug("format is ". join(',',$self->request_format()).
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	361 " data is\n$data\n");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	362 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	363
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	364
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	365 =head2 request_format
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	366
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	367 Title : request_format
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	368 Usage : my ($req_format, $ioformat) = $self->request_format;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	369 $self->request_format("genbank");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	370 $self->request_format("fasta");
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	371 Function: Get/Set sequence format retrieval. The get-form will normally not
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	372 be used outside of this and derived modules.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	373 Returns : Array of two strings, the first representing the format for
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	374 retrieval, and the second specifying the corresponding SeqIO format.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	375 Args : $format = sequence format
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	376
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	377 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	378
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	379 sub request_format {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	380 my ($self, $value) = @_;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	381 if( defined $value ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	382 $value = lc $value;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	383 if( defined $FORMATMAP{$value} ) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	384 $self->{'_format'} = [ $value, $FORMATMAP{$value}];
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	385 } else {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	386 # Try to fall back to a default. Alternatively, we could throw
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	387 # an exception
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	388 $self->{'_format'} = [ $value, $value ];
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	389 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	390 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	391 return @{$self->{'_format'}};
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	392 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	393
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	394 =head2 Bio::DB::WebDBSeqI methods
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	395
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	396 Overriding WebDBSeqI method to help newbies to retrieve sequences
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	397
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	398 =head2 get_Stream_by_acc
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	399
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	400 Title : get_Stream_by_acc
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	401 Usage : $seq = $db->get_Stream_by_acc([$acc1, $acc2]);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	402 Function: Gets a series of Seq objects by accession numbers
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	403 Returns : a Bio::SeqIO stream object
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	404 Args : $ref : a reference to an array of accession numbers for
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	405 the desired sequence entries
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	406 Note : For GenBank, this just calls the same code for get_Stream_by_id()
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	407
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	408 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	409
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	410 sub get_Stream_by_acc {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	411 my ($self, $ids ) = @_;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	412 my $newdb = $self->_check_id($ids);
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	413 if (defined $newdb && ref($newdb) && $newdb->isa('Bio::DB::RefSeq')) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	414 return $newdb->get_seq_stream('-uids' => $ids, '-mode' => 'single');
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	415 } else {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	416 return $self->get_seq_stream('-uids' => $ids, '-mode' => 'single');
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	417 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	418 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	419
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	420
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	421 =head2 _check_id
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	422
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	423 Title : _check_id
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	424 Usage :
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	425 Function:
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	426 Returns : A Bio::DB::RefSeq reference or throws
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	427 Args : $id(s), $string
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	428
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	429 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	430
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	431 sub _check_id {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	432 my ($self, $ids) = @_;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	433
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	434 # NT contigs can not be retrieved
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	435 $self->throw("NT_ contigs are whole chromosome files which are not part of regular".
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	436 "database distributions. Go to ftp://ftp.ncbi.nih.gov/genomes/.")
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	437 if $ids =~ /NT_/;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	438
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	439 # Asking for a RefSeq from EMBL/GenBank
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	440
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	441 if ($ids =~ /N._/) {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	442 $self->warn("[$ids] is not a normal sequence database but a RefSeq entry.".
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	443 " Redirecting the request.\n")
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	444 if $self->verbose >= 0;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	445 return new Bio::DB::RefSeq;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	446 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	447 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	448
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	449 =head2 delay_policy
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	450
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	451 Title : delay_policy
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	452 Usage : $secs = $self->delay_policy
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	453 Function: return number of seconds to delay between calls to remote db
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	454 Returns : number of seconds to delay
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	455 Args : none
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	456
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	457 NOTE: NCBI requests a delay of 3s between requests. This method
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	458 implements that policy.
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	459
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	460 =cut
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	461
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	462 sub delay_policy {
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	463 my $self = shift;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	464 return 3;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	465 }
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	466
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	467 1;
2bc9b66ada89 Uploaded mahtabm parents: diff changeset	468 __END__

Mercurial > repos > mahtabm > ensemb_rep_gvl

annotate variant_effect_predictor/Bio/DB/NCBIHelper.pm @ 0:2bc9b66ada89 draft default tip