vep_emc: dir_plugins/dbNSFP.pm annotate

annotate dir_plugins/dbNSFP.pm @ 10:f594c6bed58f draft default tip

Uploaded

author	dvanzessen
date	Tue, 21 Apr 2020 11:40:19 +0000
parents	e545d0a25ffe
children

rev	line source
0 e545d0a25ffe Uploaded dvanzessen parents: diff changeset	1 =head1 LICENSE
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	2
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	3 Copyright [1999-2015] Wellcome Trust Sanger Institute and the EMBL-European Bioinformatics Institute
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	4 Copyright [2016-2018] EMBL-European Bioinformatics Institute
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	5
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	6 Licensed under the Apache License, Version 2.0 (the "License");
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	7 you may not use this file except in compliance with the License.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	8 You may obtain a copy of the License at
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	9
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	10 http://www.apache.org/licenses/LICENSE-2.0
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	11
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	12 Unless required by applicable law or agreed to in writing, software
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	13 distributed under the License is distributed on an "AS IS" BASIS,
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	14 WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	15 See the License for the specific language governing permissions and
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	16 limitations under the License.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	17
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	18 =head1 CONTACT
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	19
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	20 Ensembl <http://www.ensembl.org/info/about/contact/index.html>
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	21
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	22 =cut
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	23
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	24 =head1 NAME
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	25
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	26 dbNSFP
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	27
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	28 =head1 SYNOPSIS
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	29
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	30 mv dbNSFP.pm ~/.vep/Plugins
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	31 ./vep -i variations.vcf --plugin dbNSFP,/path/to/dbNSFP.gz,col1,col2
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	32
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	33 =head1 DESCRIPTION
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	34
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	35 A VEP plugin that retrieves data for missense variants from a tabix-indexed
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	36 dbNSFP file.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	37
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	38 Please cite the dbNSFP publication alongside the VEP if you use this resource:
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	39 http://www.ncbi.nlm.nih.gov/pubmed/21520341
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	40
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	41 You must have the Bio::DB::HTS module or the tabix utility must be installed
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	42 in your path to use this plugin. The dbNSFP data file can be downloaded from
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	43 https://sites.google.com/site/jpopgen/dbNSFP.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	44
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	45 Release 3.5a of dbNSFP uses GRCh38/hg38 coordinates and GRCh37/hg19
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	46 coordinates.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	47 To use plugin with GRCh37/hg19 data:
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	48 > wget ftp://dbnsfp:dbnsfp@dbnsfp.softgenetics.com/dbNSFPv3.5a.zip
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	49 > unzip dbNSFPv3.5a.zip
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	50 > head -n1 dbNSFP3.5a_variant.chr1 > h
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	51 > cat dbNSFP3.5a_variant.chr* \| grep -v ^#chr \| awk '$8 != "."' \| sort -k8,8 -k9,9n - \| cat h - \| bgzip -c > dbNSFP_hg19.gz
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	52 > tabix -s 8 -b 9 -e 9 dbNSFP_hg19.gz
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	53
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	54 To use plugin with GRCh38/hg38 data:
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	55 > wget ftp://dbnsfp:dbnsfp@dbnsfp.softgenetics.com/dbNSFPv3.5a.zip
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	56 > unzip dbNSFPv3.5a.zip
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	57 > head -n1 dbNSFP3.5a_variant.chr1 > h
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	58 > cat dbNSFP3.5a_variant.chr* \| grep -v ^#chr \| sort -k1,1 -k2,2n - \| cat h - \| bgzip -c > dbNSFP.gz
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	59 > tabix -s 1 -b 2 -e 2 dbNSFP.gz
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	60
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	61 When running the plugin you must list at least one column to retrieve from the
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	62 dbNSFP file, specified as parameters to the plugin e.g.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	63
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	64 --plugin dbNSFP,/path/to/dbNSFP.gz,LRT_score,GERP++_RS
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	65
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	66 You may include all columns with ALL; this fetches a large amount of data per
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	67 variant!:
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	68
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	69 --plugin dbNSFP,/path/to/dbNSFP.gz,ALL
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	70
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	71 Tabix also allows the data file to be hosted on a remote server. This plugin is
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	72 fully compatible with such a setup - simply use the URL of the remote file:
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	73
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	74 --plugin dbNSFP,http://my.files.com/dbNSFP.gz,col1,col2
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	75
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	76 The plugin replaces occurrences of ';' with ',' and '\|' with '&'. However, some
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	77 data field columns, e.g. Interpro_domain, use the replacement characters. We
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	78 added a file with replacement logic for customising the required replacement
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	79 of ';' and '\|' in dbNSFP data columns. In addition to the default replacements
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	80 (; to , and \| to &) users can add customised replacements. Users can either modify
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	81 the file dbNSFP_replacement_logic in the VEP_plugins directory or provide their own
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	82 file as second argument when calling the plugin:
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	83
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	84 --plugin dbNSFP,/path/to/dbNSFP.gz,/path/to/dbNSFP_replacement_logic,LRT_score,GERP++_RS
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	85
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	86 Note that transcript sequences referred to in dbNSFP may be out of sync with
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	87 those in the latest release of Ensembl; this may lead to discrepancies with
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	88 scores retrieved from other sources.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	89
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	90 If the dbNSFP README file is found in the same directory as the data file,
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	91 column descriptions will be read from this and incorporated into the VEP output
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	92 file header.
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	93
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	94 =cut
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	95
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	96 package dbNSFP;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	97
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	98 use strict;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	99 use warnings;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	100
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	101 use Bio::EnsEMBL::Utils::Sequence qw(reverse_comp);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	102
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	103 use Bio::EnsEMBL::Variation::Utils::BaseVepTabixPlugin;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	104
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	105 use base qw(Bio::EnsEMBL::Variation::Utils::BaseVepTabixPlugin);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	106
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	107 my %INCLUDE_SO = map {$_ => 1} qw(missense_variant stop_lost stop_gained start_lost);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	108
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	109 sub new {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	110 my $class = shift;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	111
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	112 my $self = $class->SUPER::new(@_);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	113
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	114 $self->expand_left(0);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	115 $self->expand_right(0);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	116
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	117 # get dbNSFP file
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	118 my $file = $self->params->[0];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	119 $self->add_file($file);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	120
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	121 # get headers
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	122 open HEAD, "tabix -fh $file 1:1-1 2>&1 \| ";
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	123 while(<HEAD>) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	124 next unless /^\#/;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	125 chomp;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	126 $self->{headers} = [split];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	127 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	128 close HEAD;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	129
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	130 die "ERROR: Could not read headers from $file\n" unless defined($self->{headers}) && scalar @{$self->{headers}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	131
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	132 # check alt and Ensembl_transcriptid headers
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	133 foreach my $h(qw(alt Ensembl_transcriptid)) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	134 die "ERROR: Could not find required column $h in $file\n" unless grep {$_ eq $h} @{$self->{headers}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	135 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	136
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	137 my $i = 1;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	138 # check if 2nd argument is a file that specifies replacement logic
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	139 # read replacement logic
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	140 my $replacement_file = $self->params->[$i];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	141 if (defined $replacement_file && -e $replacement_file) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	142 $self->add_replacement_logic($replacement_file);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	143 $i++;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	144 } else {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	145 $self->add_replacement_logic();
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	146 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	147
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	148 # get required columns
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	149 while(defined($self->params->[$i])) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	150 my $col = $self->params->[$i];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	151 if($col eq 'ALL') {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	152 $self->{cols} = {map {$_ => 1} @{$self->{headers}}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	153 last;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	154 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	155 die "ERROR: Column $col not found in header for file $file. Available columns are:\n".join(",", @{$self->{headers}})."\n" unless grep {$_ eq $col} @{$self->{headers}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	156
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	157 $self->{cols}->{$self->params->[$i]} = 1;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	158 $i++;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	159 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	160
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	161 die "ERROR: No columns selected to fetch. Available columns are:\n".join(",", @{$self->{headers}})."\n" unless defined($self->{cols}) && scalar keys %{$self->{cols}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	162
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	163 return $self;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	164 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	165
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	166 sub feature_types {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	167 return ['Transcript'];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	168 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	169
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	170 sub get_header_info {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	171 my $self = shift;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	172
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	173 if(!exists($self->{_header_info})) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	174
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	175 # look for readme
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	176 my $file_dir = $self->files->[0];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	177
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	178 my %rm_descs;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	179
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	180 # won't work for remote
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	181 if($file_dir !~ /tp\:\/\//) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	182
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	183 # get just dir
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	184 $file_dir =~ s/\/[^\/]+$/\//;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	185
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	186 if(opendir DIR, $file_dir) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	187 my ($readme_file) = grep {/dbnsfp.*readme\.txt/i} readdir DIR;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	188 closedir DIR;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	189
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	190 if(open RM, $file_dir.$readme_file) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	191 my ($col, $reading);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	192
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	193 # parse dbNSFP readme
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	194 # relevant lines look like:
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	195 #
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	196 # 1 column1_name: description blah blah
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	197 # blah blah blah
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	198 # 2 column2_name: description blah blah
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	199 # blah blah blah
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	200
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	201 while(<RM>) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	202 chomp;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	203 s/\r$//g;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	204
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	205 if(/^\d+\s/) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	206 $reading = 1;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	207
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	208 m/^\d+\s+(.+?)\:\s+(.+)/;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	209 $col = $1;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	210
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	211 $rm_descs{$col} = '(from dbNSFP) '.$2 if $col && $2;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	212 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	213 elsif($reading && /\w/) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	214 s/^\s+//;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	215 $rm_descs{$col} .= ' '.$_;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	216 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	217 else {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	218 $reading = 0;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	219 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	220 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	221
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	222 close RM;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	223
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	224 # remove multiple spaces
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	225 $rm_descs{$_} =~ s/\s+/ /g for keys %rm_descs;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	226 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	227 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	228 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	229
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	230 $self->{_header_info} = {map {$_ => $rm_descs{$_} \|\| ($_.' from dbNSFP file')} keys %{$self->{cols}}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	231 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	232
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	233 return $self->{_header_info};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	234 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	235
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	236 sub run {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	237 my ($self, $tva) = @_;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	238
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	239 # only for missense variants
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	240 return {} unless grep {$INCLUDE_SO{$_->SO_term}} @{$tva->get_all_OverlapConsequences};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	241
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	242 my $vf = $tva->variation_feature;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	243
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	244 return {} unless $vf->{start} eq $vf->{end};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	245
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	246 # get allele, reverse comp if needed
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	247 my $allele = $tva->variation_feature_seq;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	248 reverse_comp(\$allele) if $vf->{strand} < 0;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	249
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	250 return {} unless $allele =~ /^[ACGT]$/;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	251
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	252 # get transcript stable ID
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	253 my $tr_id = $tva->transcript->stable_id;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	254
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	255 my $data;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	256 my $pos;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	257
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	258 my $assembly = $self->{config}->{assembly};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	259 my $chr = ($vf->{chr} =~ /MT/i) ? 'M' : $vf->{chr};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	260 foreach my $tmp_data(@{$self->get_data($chr, $vf->{start} - 1, $vf->{end})}) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	261 # compare allele and transcript
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	262 if ($assembly eq 'GRCh37') {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	263 if (exists $tmp_data->{'pos(1-coor)'}) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	264 # for dbNSFP version 2.9.1
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	265 $pos = $tmp_data->{'pos(1-coor)'}
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	266 } elsif (exists $tmp_data->{'hg19_pos(1-based)'}) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	267 # for dbNSFP version 3.5c indexed for hg19/(=GRCh37)
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	268 $pos = $tmp_data->{'hg19_pos(1-based)'}
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	269 } else {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	270 die "dbNSFP file does not contain required columns (pos(1-coor) for version 2.9.1 or hg19_pos(1-based) for version 3.5c) to use with GRCh37";
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	271 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	272 } else {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	273 if (exists $tmp_data->{'pos(1-based)'}) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	274 $pos = $tmp_data->{'pos(1-based)'}
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	275 } else {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	276 die "dbNSFP file does not contain required column pos(1-based) to use with GRCh38";
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	277 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	278 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	279
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	280 next unless
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	281 $pos == $vf->{start} &&
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	282 defined($tmp_data->{alt}) &&
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	283 $tmp_data->{alt} eq $allele;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	284
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	285 # make a clean copy as we're going to edit it
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	286 %$data = %$tmp_data;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	287
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	288 # convert data with multiple transcript values
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	289 # if($data->{Ensembl_transcriptid} =~ m/\;/) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	290
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	291 # # find the "index" of this transcript
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	292 # my @tr_ids = split(';', $data->{Ensembl_transcriptid});
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	293 # my $tr_index;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	294
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	295 # for my $i(0..$#tr_ids) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	296 # $tr_index = $i;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	297 # last if $tr_ids[$tr_index] =~ /^$tr_id(\.\d+)?$/;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	298 # }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	299
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	300 # next unless defined($tr_index);
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	301
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	302 # # now alter other fields
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	303 # foreach my $key(keys %$data) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	304 # if($data->{$key} =~ m/\;/) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	305 # my @split = split(';', $data->{$key});
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	306 # die("ERROR: Transcript index out of range") if $tr_index > $#split;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	307 # $data->{$key} = $split[$tr_index];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	308 # }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	309 # }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	310 # }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	311 last;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	312 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	313
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	314 return {} unless scalar keys %$data;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	315
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	316 # get required data
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	317 my @from = @{$self->{replacement}->{default}->{from}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	318 my @to = @{$self->{replacement}->{default}->{to}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	319
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	320 my %return;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	321 foreach my $colname (keys %$data) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	322 next if(!defined($self->{cols}->{$colname}));
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	323 next if($data->{$colname} eq '.');
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	324
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	325 my @from = @{$self->{replacement}->{default}->{from}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	326 my @to = @{$self->{replacement}->{default}->{to}};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	327 @from = @{$self->{replacement}->{$colname}->{from}} if (defined $self->{replacement}->{$colname});
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	328 @to = @{$self->{replacement}->{$colname}->{to}} if (defined $self->{replacement}->{$colname});
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	329 for my $i (0 .. $#from) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	330 $data->{$colname} =~ s/\Q$from[$i]\E/$to[$i]/g;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	331 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	332 $return{$colname} = $data->{$colname};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	333 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	334
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	335 return \%return;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	336 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	337
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	338 sub parse_data {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	339 my ($self, $line) = @_;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	340
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	341 $line =~ s/\r$//g;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	342
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	343 my @split = split /\t/, $line;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	344
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	345 # parse data into hash of col names and values
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	346 my %data = map {$self->{headers}->[$_] => $split[$_]} (0..(scalar @{$self->{headers}} - 1));
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	347
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	348 return \%data;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	349 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	350
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	351 sub get_start {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	352 return $_[1]->{'pos(1-based)'};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	353 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	354
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	355 sub get_end {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	356 return $_[1]->{'pos(1-based)'};
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	357 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	358
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	359 sub add_replacement_logic {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	360 my $self = shift;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	361 my $file = shift;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	362 $file \|\|= 'dbNSFP_replacement_logic';
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	363 if (! -e $file) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	364 $self->{replacement}->{default}->{from} = [';', '\|'];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	365 $self->{replacement}->{default}->{to} = [',', '&'];
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	366 } else {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	367 open FILE, $file;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	368 while(<FILE>) {
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	369 chomp;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	370 next if /^colname/;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	371 my ($colname, $from, $to) = split/\s+/;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	372 die ("ERROR: 3 values separated by whitespace are required: colname from to.") if(!($colname && $from && $to));
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	373 push @{$self->{replacement}->{$colname}->{from}}, $from;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	374 push @{$self->{replacement}->{$colname}->{to}}, $to;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	375 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	376 close FILE;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	377 die("ERROR: No default replacement logic has been specified.\n") if (!defined $self->{replacement}->{default});
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	378 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	379 }
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	380
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	381 1;
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	382
e545d0a25ffe Uploaded dvanzessen parents: diff changeset	383

Mercurial > repos > dvanzessen > vep_emc

annotate dir_plugins/dbNSFP.pm @ 10:f594c6bed58f draft default tip