prims_metabolomics: query_mass

annotate query_mass_repos.py @ 9:31ec089d20a4 default tip

author	pieter.lukasse@wur.nl
date	Fri, 06 Feb 2015 15:50:06 +0100
parents	071a185c2ced
children

rev	line source
1 071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	1 #!/usr/bin/env python
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	2 # encoding: utf-8
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	3 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	4 Module to query a set of accurate mass values detected by high-resolution mass spectrometers
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	5 against various repositories/services such as METabolomics EXPlorer database or the
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	6 MFSearcher service (http://webs2.kazusa.or.jp/mfsearcher/).
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	7
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	8 It will take the input file and for each record it will query the
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	9 molecular mass in the selected repository/service. If one or more compounds are found
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	10 then extra information regarding these compounds is added to the output file.
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	11
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	12 The output file is thus the input file enriched with information about
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	13 related items found in the selected repository/service.
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	14
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	15 The service should implement the following interface:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	16
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	17 http://service_url/mass?targetMs=500&margin=1&marginUnit=ppm&output=txth (txth means there is guaranteed to be a header line before the data)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	18
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	19 The output should be tab separated and should contain the following columns (in this order)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	20 db-name molecular-formula dbe formula-weight id description
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	21
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	22
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	23 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	24 import csv
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	25 import sys
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	26 import fileinput
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	27 import urllib2
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	28 import time
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	29 from collections import OrderedDict
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	30
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	31 __author__ = "Pieter Lukasse"
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	32 __contact__ = "pieter.lukasse@wur.nl"
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	33 __copyright__ = "Copyright, 2014, Plant Research International, WUR"
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	34 __license__ = "Apache v2"
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	35
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	36 def _process_file(in_xsv, delim='\t'):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	37 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	38 Generic method to parse a tab-separated file returning a dictionary with named columns
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	39 @param in_csv: input filename to be parsed
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	40 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	41 data = list(csv.reader(open(in_xsv, 'rU'), delimiter=delim))
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	42 return _process_data(data)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	43
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	44 def _process_data(data):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	45
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	46 header = data.pop(0)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	47 # Create dictionary with column name as key
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	48 output = OrderedDict()
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	49 for index in xrange(len(header)):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	50 output[header[index]] = [row[index] for row in data]
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	51 return output
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	52
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	53
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	54 def _query_and_add_data(input_data, molecular_mass_col, repository_dblink, error_margin, margin_unit):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	55
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	56 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	57 This method will iterate over the record in the input_data and
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	58 will enrich them with the related information found (if any) in the
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	59 chosen repository/service
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	60
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	61 # TODO : could optimize this with multi-threading, see also nice example at http://stackoverflow.com/questions/2846653/python-multithreading-for-dummies
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	62 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	63 merged = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	64
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	65 for i in xrange(len(input_data[input_data.keys()[0]])):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	66 # Get the record in same dictionary format as input_data, but containing
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	67 # a value at each column instead of a list of all values of all records:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	68 input_data_record = OrderedDict(zip(input_data.keys(), [input_data[key][i] for key in input_data.keys()]))
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	69
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	70 # read the molecular mass :
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	71 molecular_mass = input_data_record[molecular_mass_col]
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	72
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	73
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	74 # search for related records in repository/service:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	75 data_found = None
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	76 if molecular_mass != "":
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	77 molecular_mass = float(molecular_mass)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	78
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	79 # 1- search for data around this MM:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	80 query_link = repository_dblink + "/mass?targetMs=" + str(molecular_mass) + "&margin=" + str(error_margin) + "&marginUnit=" + margin_unit + "&output=txth"
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	81
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	82 data_found = _fire_query_and_return_dict(query_link + "&_format_result=tsv")
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	83 data_type_found = "MM"
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	84
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	85
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	86 if data_found == None:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	87 # If still nothing found, just add empty columns
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	88 extra_cols = ['', '','','','','']
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	89 else:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	90 # Add info found:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	91 extra_cols = _get_extra_info_and_link_cols(data_found, data_type_found, query_link)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	92
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	93 # Take all data and merge it into a "flat"/simple array of values:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	94 field_values_list = _merge_data(input_data_record, extra_cols)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	95
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	96 merged.append(field_values_list)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	97
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	98 # return the merged/enriched records:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	99 return merged
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	100
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	101
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	102 def _get_extra_info_and_link_cols(data_found, data_type_found, query_link):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	103 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	104 This method will go over the data found and will return a
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	105 list with the following items:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	106 - details of hits found :
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	107 db-name molecular-formula dbe formula-weight id description
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	108 - Link that executes same query
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	109
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	110 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	111
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	112 # set() makes a unique list:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	113 db_name_set = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	114 molecular_formula_set = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	115 id_set = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	116 description_set = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	117
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	118
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	119 if 'db-name' in data_found:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	120 db_name_set = set(data_found['db-name'])
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	121 elif '# db-name' in data_found:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	122 db_name_set = set(data_found['# db-name'])
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	123 if 'molecular-formula' in data_found:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	124 molecular_formula_set = set(data_found['molecular-formula'])
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	125 if 'id' in data_found:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	126 id_set = set(data_found['id'])
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	127 if 'description' in data_found:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	128 description_set = set(data_found['description'])
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	129
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	130 result = [data_type_found,
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	131 _to_xsv(db_name_set),
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	132 _to_xsv(molecular_formula_set),
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	133 _to_xsv(id_set),
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	134 _to_xsv(description_set),
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	135 #To let Excel interpret as link, use e.g. =HYPERLINK("http://stackoverflow.com", "friendly name"):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	136 "=HYPERLINK(\""+ query_link + "\", \"Link to entries found in DB \")"]
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	137 return result
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	138
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	139
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	140 def _to_xsv(data_set):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	141 result = ""
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	142 for item in data_set:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	143 result = result + str(item) + "\|"
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	144 return result
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	145
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	146
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	147 def _fire_query_and_return_dict(url):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	148 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	149 This method will fire the query as a web-service call and
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	150 return the results as a list of dictionary objects
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	151 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	152
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	153 try:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	154 data = urllib2.urlopen(url).read()
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	155
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	156 # transform to dictionary:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	157 result = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	158 data_rows = data.split("\n")
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	159
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	160 # remove comment lines if any (only leave the one that has "molecular-formula" word in it...compatible with kazusa service):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	161 data_rows_to_remove = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	162 for data_row in data_rows:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	163 if data_row == "" or (data_row[0] == '#' and "molecular-formula" not in data_row):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	164 data_rows_to_remove.append(data_row)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	165
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	166 for data_row in data_rows_to_remove:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	167 data_rows.remove(data_row)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	168
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	169 # check if there is any data in the response:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	170 if len(data_rows) <= 1 or data_rows[1].strip() == '':
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	171 # means there is only the header row...so no hits:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	172 return None
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	173
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	174 for data_row in data_rows:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	175 if not data_row.strip() == '':
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	176 row_as_list = _str_to_list(data_row, delimiter='\t')
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	177 result.append(row_as_list)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	178
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	179 # return result processed into a dict:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	180 return _process_data(result)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	181
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	182 except urllib2.HTTPError, e:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	183 raise Exception( "HTTP error for URL: " + url + " : %s - " % e.code + e.reason)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	184 except urllib2.URLError, e:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	185 raise Exception( "Network error: %s" % e.reason.args[1] + ". Administrator: please check if service [" + url + "] is accessible from your Galaxy server. ")
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	186
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	187 def _str_to_list(data_row, delimiter='\t'):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	188 result = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	189 for column in data_row.split(delimiter):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	190 result.append(column)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	191 return result
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	192
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	193
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	194 # alternative: ?
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	195 # s = requests.Session()
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	196 # s.verify = False
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	197 # #s.auth = (token01, token02)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	198 # resp = s.get(url, params={'name': 'anonymous'}, stream=True)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	199 # content = resp.content
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	200 # # transform to dictionary:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	201
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	202
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	203
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	204
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	205 def _merge_data(input_data_record, extra_cols):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	206 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	207 Adds the extra information to the existing data record and returns
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	208 the combined new record.
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	209 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	210 record = []
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	211 for column in input_data_record:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	212 record.append(input_data_record[column])
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	213
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	214
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	215 # add extra columns
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	216 for column in extra_cols:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	217 record.append(column)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	218
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	219 return record
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	220
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	221
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	222 def _save_data(data_rows, headers, out_csv):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	223 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	224 Writes tab-separated data to file
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	225 @param data_rows: dictionary containing merged/enriched dataset
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	226 @param out_csv: output csv file
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	227 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	228
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	229 # Open output file for writing
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	230 outfile_single_handle = open(out_csv, 'wb')
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	231 output_single_handle = csv.writer(outfile_single_handle, delimiter="\t")
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	232
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	233 # Write headers
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	234 output_single_handle.writerow(headers)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	235
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	236 # Write one line for each row
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	237 for data_row in data_rows:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	238 output_single_handle.writerow(data_row)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	239
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	240 def _get_repository_URL(repository_file):
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	241 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	242 Read out and return the URL stored in the given file.
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	243 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	244 file_input = fileinput.input(repository_file)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	245 try:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	246 for line in file_input:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	247 if line[0] != '#':
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	248 # just return the first line that is not a comment line:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	249 return line
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	250 finally:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	251 file_input.close()
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	252
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	253
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	254 def main():
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	255 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	256 Query main function
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	257
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	258 The input file can be any tabular file, as long as it contains a column for the molecular mass.
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	259 This column is then used to query against the chosen repository/service Database.
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	260 '''
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	261 seconds_start = int(round(time.time()))
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	262
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	263 input_file = sys.argv[1]
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	264 molecular_mass_col = sys.argv[2]
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	265 repository_file = sys.argv[3]
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	266 error_margin = float(sys.argv[4])
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	267 margin_unit = sys.argv[5]
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	268 output_result = sys.argv[6]
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	269
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	270 # Parse repository_file to find the URL to the service:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	271 repository_dblink = _get_repository_URL(repository_file)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	272
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	273 # Parse tabular input file into dictionary/array:
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	274 input_data = _process_file(input_file)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	275
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	276 # Query data against repository :
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	277 enriched_data = _query_and_add_data(input_data, molecular_mass_col, repository_dblink, error_margin, margin_unit)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	278 headers = input_data.keys() + ['SEARCH hits for ','SEARCH hits: db-names', 'SEARCH hits: molecular-formulas ',
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	279 'SEARCH hits: ids','SEARCH hits: descriptions', 'Link to SEARCH hits'] #TODO - add min and max formula weigth columns
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	280
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	281 _save_data(enriched_data, headers, output_result)
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	282
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	283 seconds_end = int(round(time.time()))
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	284 print "Took " + str(seconds_end - seconds_start) + " seconds"
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	285
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	286
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	287
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	288 if __name__ == '__main__':
071a185c2ced new tools pieter.lukasse@wur.nl parents: diff changeset	289 main()

Mercurial > repos > pieterlukasse > prims_metabolomics

annotate query_mass_repos.py @ 9:31ec089d20a4 default tip