prims_metabolomics: export_to_metexp

author	pieter.lukasse@wur.nl
date	Thu, 16 Jan 2014 13:22:38 +0100
parents
children	071a185c2ced

rev	line source
0 4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	1 #!/usr/bin/env python
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	2 # encoding: utf-8
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	3 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	4 Module to combine output from the GCMS Galaxy tools RankFilter, CasLookup and MsClust
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	5 into a tabular file that can be uploaded to the MetExp database.
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	6
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	7 RankFilter, CasLookup are already combined by combine_output.py so here we will use
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	8 this result. Furthermore here the MsClust spectra file (.MSP) and one of the MsClust
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	9 quantification files are to be combined with combine_output.py result as well.
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	10
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	11 Extra calculations performed:
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	12 - The column MW is also added here and is derived from the column FORMULA found
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	13 in combine_output.py result.
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	14
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	15 So in total here we merge 3 files and calculate one new column.
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	16 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	17
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	18 import csv
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	19 import sys
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	20 from collections import OrderedDict
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	21
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	22 __author__ = "Pieter Lukasse"
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	23 __contact__ = "pieter.lukasse@wur.nl"
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	24 __copyright__ = "Copyright, 2013, Plant Research International, WUR"
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	25 __license__ = "Apache v2"
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	26
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	27 def _process_data(in_csv, delim='\t'):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	28 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	29 Generic method to parse a tab-separated file returning a dictionary with named columns
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	30 @param in_csv: input filename to be parsed
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	31 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	32 data = list(csv.reader(open(in_csv, 'rU'), delimiter=delim))
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	33 header = data.pop(0)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	34 # Create dictionary with column name as key
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	35 output = OrderedDict()
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	36 for index in xrange(len(header)):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	37 output[header[index]] = [row[index] for row in data]
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	38 return output
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	39
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	40 ONE_TO_ONE = 'one_to_one'
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	41 N_TO_ONE = 'n_to_one'
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	42
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	43 def _merge_data(set1, link_field_set1, set2, link_field_set2, compare_function, merge_function, relation_type=ONE_TO_ONE):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	44 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	45 Merges data from both input dictionaries based on the link fields. This method will
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	46 build up a new list containing the merged hits as the items.
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	47 @param set1: dictionary holding set1 in the form of N lists (one list per attribute name)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	48 @param set2: dictionary holding set2 in the form of N lists (one list per attribute name)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	49 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	50 # TODO test for correct input files -> same link_field values should be there (test at least number of unique link_field values):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	51 #
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	52 # if (len(set1[link_field_set1]) != len(set2[link_field_set2])):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	53 # raise Exception('input files should have the same nr of key values ')
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	54
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	55
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	56 merged = []
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	57 processed = {}
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	58 for link_field_set1_idx in xrange(len(set1[link_field_set1])):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	59 link_field_set1_value = set1[link_field_set1][link_field_set1_idx]
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	60 if not link_field_set1_value in processed :
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	61 # keep track of processed items to not repeat them
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	62 processed[link_field_set1_value] = link_field_set1_value
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	63
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	64 # Get the indices for current link_field_set1_value in both data-structures for proper matching
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	65 set1index = [index for index, value in enumerate(set1[link_field_set1]) if value == link_field_set1_value]
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	66 set2index = [index for index, value in enumerate(set2[link_field_set2]) if compare_function(value, link_field_set1_value)==True ]
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	67
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	68
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	69
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	70 merged_hits = []
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	71 # Combine hits
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	72 for hit in xrange(len(set1index)):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	73 # Create records of hits to be merged ("keys" are the attribute names, so what the lines below do
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	74 # is create a new "dict" item with same "keys"/attributes, with each attribute filled with its
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	75 # corresponding value in the rankfilter or caslookup tables; i.e.
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	76 # rankfilter[key] => returns the list/array with size = nrrows, with the values for the attribute
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	77 # represented by "key". rindex[hit] => points to the row nr=hit (hit is a rownr/index)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	78 # It just ensures the entry is made available as a plain named array for easy access.
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	79 rf_record = OrderedDict(zip(set1.keys(), [set1[key][set1index[hit]] for key in set1.keys()]))
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	80 if relation_type == ONE_TO_ONE :
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	81 cl_record = OrderedDict(zip(set2.keys(), [set2[key][set2index[hit]] for key in set2.keys()]))
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	82 else:
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	83 # is N to 1:
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	84 cl_record = OrderedDict(zip(set2.keys(), [set2[key][set2index[0]] for key in set2.keys()]))
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	85
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	86 merged_hit = merge_function(rf_record, cl_record)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	87 merged_hits.append(merged_hit)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	88
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	89 merged.append(merged_hits)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	90
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	91 return merged, len(set1index)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	92
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	93
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	94 def _compare_records(key1, key2):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	95 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	96 in this case the compare method is really simple as both keys are expected to contain
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	97 same value when records are the same
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	98 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	99 if key1 == key2:
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	100 return True
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	101 else:
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	102 return False
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	103
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	104
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	105
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	106 def _merge_records(rank_caslookup_combi, msclust_quant_record):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	107 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	108 Combines single records from both the RankFilter+CasLookup combi file and from MsClust file
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	109
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	110 @param rank_caslookup_combi: rankfilter and caslookup combined record (see combine_output.py)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	111 @param msclust_quant_record: msclust quantification + spectrum record
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	112 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	113 i = 0
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	114 record = []
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	115 for column in rank_caslookup_combi:
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	116 record.append(rank_caslookup_combi[column])
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	117 i += 1
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	118
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	119 for column in msclust_quant_record:
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	120 record.append(msclust_quant_record[column])
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	121 i += 1
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	122
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	123 return record
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	124
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	125
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	126
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	127
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	128 def _save_data(data, headers, nhits, out_csv):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	129 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	130 Writes tab-separated data to file
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	131 @param data: dictionary containing merged dataset
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	132 @param out_csv: output csv file
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	133 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	134
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	135 # Open output file for writing
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	136 outfile_single_handle = open(out_csv, 'wb')
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	137 output_single_handle = csv.writer(outfile_single_handle, delimiter="\t")
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	138
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	139 # Write headers
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	140 output_single_handle.writerow(headers)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	141
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	142 # Write one line for each centrotype
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	143 for centrotype_idx in xrange(len(data)):
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	144 for hit in data[centrotype_idx]:
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	145 output_single_handle.writerow(hit)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	146
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	147
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	148 def main():
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	149 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	150 Combine Output main function
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	151
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	152 RankFilter, CasLookup are already combined by combine_output.py so here we will use
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	153 this result. Furthermore here the MsClust spectra file (.MSP) and one of the MsClust
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	154 quantification files are to be combined with combine_output.py result as well.
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	155 '''
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	156 rankfilter_and_caslookup_combined_file = sys.argv[1]
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	157 msclust_quantification_and_spectra_file = sys.argv[2]
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	158 output_csv = sys.argv[3]
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	159
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	160 # Read RankFilter and CasLookup output files
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	161 rankfilter_and_caslookup_combined = _process_data(rankfilter_and_caslookup_combined_file)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	162 msclust_quantification_and_spectra = _process_data(msclust_quantification_and_spectra_file, ',')
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	163
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	164 merged, nhits = _merge_data(rankfilter_and_caslookup_combined, 'Centrotype',
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	165 msclust_quantification_and_spectra, 'centrotype', _compare_records, _merge_records, N_TO_ONE)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	166 headers = rankfilter_and_caslookup_combined.keys() + msclust_quantification_and_spectra.keys()
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	167 _save_data(merged, headers, nhits, output_csv)
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	168
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	169
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	170 if __name__ == '__main__':
4b94bb2d381c Initial commit to toolshed pieter.lukasse@wur.nl parents: diff changeset	171 main()

0

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

1 #!/usr/bin/env python

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

2 # encoding: utf-8

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

3 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

4 Module to combine output from the GCMS Galaxy tools RankFilter, CasLookup and MsClust

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

5 into a tabular file that can be uploaded to the MetExp database.

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

6

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

7 RankFilter, CasLookup are already combined by combine_output.py so here we will use

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

8 this result. Furthermore here the MsClust spectra file (.MSP) and one of the MsClust

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

9 quantification files are to be combined with combine_output.py result as well.

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

10

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

11 Extra calculations performed:

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

12 - The column MW is also added here and is derived from the column FORMULA found

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

13 in combine_output.py result.

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

14

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

15 So in total here we merge 3 files and calculate one new column.

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

16 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

17

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

18 import csv

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

19 import sys

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

20 from collections import OrderedDict

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

21

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

22 __author__ = "Pieter Lukasse"

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

23 __contact__ = "pieter.lukasse@wur.nl"

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

24 __copyright__ = "Copyright, 2013, Plant Research International, WUR"

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

25 __license__ = "Apache v2"

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

26

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

27 def _process_data(in_csv, delim='\t'):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

28 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

29 Generic method to parse a tab-separated file returning a dictionary with named columns

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

30 @param in_csv: input filename to be parsed

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

31 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

32 data = list(csv.reader(open(in_csv, 'rU'), delimiter=delim))

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

33 header = data.pop(0)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

34 # Create dictionary with column name as key

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

35 output = OrderedDict()

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

36 for index in xrange(len(header)):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

37 output[header[index]] = [row[index] for row in data]

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

38 return output

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

39

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

40 ONE_TO_ONE = 'one_to_one'

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

41 N_TO_ONE = 'n_to_one'

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

42

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

43 def _merge_data(set1, link_field_set1, set2, link_field_set2, compare_function, merge_function, relation_type=ONE_TO_ONE):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

44 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

45 Merges data from both input dictionaries based on the link fields. This method will

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

46 build up a new list containing the merged hits as the items.

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

47 @param set1: dictionary holding set1 in the form of N lists (one list per attribute name)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

48 @param set2: dictionary holding set2 in the form of N lists (one list per attribute name)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

49 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

50 # TODO test for correct input files -> same link_field values should be there (test at least number of unique link_field values):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

51 #

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

52 # if (len(set1[link_field_set1]) != len(set2[link_field_set2])):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

53 # raise Exception('input files should have the same nr of key values ')

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

54

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

55

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

56 merged = []

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

57 processed = {}

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

58 for link_field_set1_idx in xrange(len(set1[link_field_set1])):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

59 link_field_set1_value = set1[link_field_set1][link_field_set1_idx]

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

60 if not link_field_set1_value in processed :

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

61 # keep track of processed items to not repeat them

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

62 processed[link_field_set1_value] = link_field_set1_value

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

63

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

64 # Get the indices for current link_field_set1_value in both data-structures for proper matching

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

65 set1index = [index for index, value in enumerate(set1[link_field_set1]) if value == link_field_set1_value]

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

66 set2index = [index for index, value in enumerate(set2[link_field_set2]) if compare_function(value, link_field_set1_value)==True ]

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

67

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

68

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

69

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

70 merged_hits = []

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

71 # Combine hits

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

72 for hit in xrange(len(set1index)):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

73 # Create records of hits to be merged ("keys" are the attribute names, so what the lines below do

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

74 # is create a new "dict" item with same "keys"/attributes, with each attribute filled with its

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

75 # corresponding value in the rankfilter or caslookup tables; i.e.

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

76 # rankfilter[key] => returns the list/array with size = nrrows, with the values for the attribute

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

77 # represented by "key". rindex[hit] => points to the row nr=hit (hit is a rownr/index)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

78 # It just ensures the entry is made available as a plain named array for easy access.

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

79 rf_record = OrderedDict(zip(set1.keys(), [set1[key][set1index[hit]] for key in set1.keys()]))

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

80 if relation_type == ONE_TO_ONE :

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

81 cl_record = OrderedDict(zip(set2.keys(), [set2[key][set2index[hit]] for key in set2.keys()]))

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

82 else:

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

83 # is N to 1:

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

84 cl_record = OrderedDict(zip(set2.keys(), [set2[key][set2index[0]] for key in set2.keys()]))

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

85

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

86 merged_hit = merge_function(rf_record, cl_record)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

87 merged_hits.append(merged_hit)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

88

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

89 merged.append(merged_hits)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

90

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

91 return merged, len(set1index)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

92

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

93

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

94 def _compare_records(key1, key2):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

95 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

96 in this case the compare method is really simple as both keys are expected to contain

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

97 same value when records are the same

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

98 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

99 if key1 == key2:

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

100 return True

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

101 else:

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

102 return False

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

103

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

104

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

105

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

106 def _merge_records(rank_caslookup_combi, msclust_quant_record):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

107 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

108 Combines single records from both the RankFilter+CasLookup combi file and from MsClust file

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

109

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

110 @param rank_caslookup_combi: rankfilter and caslookup combined record (see combine_output.py)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

111 @param msclust_quant_record: msclust quantification + spectrum record

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

112 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

113 i = 0

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

114 record = []

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

115 for column in rank_caslookup_combi:

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

116 record.append(rank_caslookup_combi[column])

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

117 i += 1

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

118

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

119 for column in msclust_quant_record:

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

120 record.append(msclust_quant_record[column])

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

121 i += 1

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

122

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

123 return record

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

124

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

125

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

126

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

127

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

128 def _save_data(data, headers, nhits, out_csv):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

129 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

130 Writes tab-separated data to file

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

131 @param data: dictionary containing merged dataset

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

132 @param out_csv: output csv file

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

133 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

134

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

135 # Open output file for writing

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

136 outfile_single_handle = open(out_csv, 'wb')

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

137 output_single_handle = csv.writer(outfile_single_handle, delimiter="\t")

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

138

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

139 # Write headers

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

140 output_single_handle.writerow(headers)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

141

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

142 # Write one line for each centrotype

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

143 for centrotype_idx in xrange(len(data)):

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

144 for hit in data[centrotype_idx]:

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

145 output_single_handle.writerow(hit)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

146

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

147

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

148 def main():

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

149 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

150 Combine Output main function

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

151

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

152 RankFilter, CasLookup are already combined by combine_output.py so here we will use

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

153 this result. Furthermore here the MsClust spectra file (.MSP) and one of the MsClust

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

154 quantification files are to be combined with combine_output.py result as well.

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

155 '''

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

156 rankfilter_and_caslookup_combined_file = sys.argv[1]

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

157 msclust_quantification_and_spectra_file = sys.argv[2]

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

158 output_csv = sys.argv[3]

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

159

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

160 # Read RankFilter and CasLookup output files

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

161 rankfilter_and_caslookup_combined = _process_data(rankfilter_and_caslookup_combined_file)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

162 msclust_quantification_and_spectra = _process_data(msclust_quantification_and_spectra_file, ',')

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

163

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

164 merged, nhits = _merge_data(rankfilter_and_caslookup_combined, 'Centrotype',

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

165 msclust_quantification_and_spectra, 'centrotype', _compare_records, _merge_records, N_TO_ONE)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

166 headers = rankfilter_and_caslookup_combined.keys() + msclust_quantification_and_spectra.keys()

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

167 _save_data(merged, headers, nhits, output_csv)

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

168

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

169

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

170 if __name__ == '__main__':

4b94bb2d381c Initial commit to toolshed

pieter.lukasse@wur.nl

parents:

diff changeset

171 main()

Mercurial > repos > pieterlukasse > prims_metabolomics

annotate export_to_metexp_tabular.py @ 0:4b94bb2d381c