compute_wrapper: compute.xml annotate

author	Assaf Gordon <assafgordon@gmail.com>
date	Thu, 20 Mar 2014 17:07:55 -0400
parents
children	b8e386e9fd0b

rev	line source
0 ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	1 <tool id="GroupCompute" name="Group and Compute" version="1.0.2">
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	2 <description>operations on tabular data.</description>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	3 <command>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	4 compute
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	5 $header_in
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	6 $header_out
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	7 $need_sort
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	8 $print_full_line
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	9 $ignore_case
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	10 #if str($grouping)>0
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	11 --group '$grouping'
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	12 #end if
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	13 -T
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	14 #for $oper in $operations
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	15 ${oper.op_name}
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	16 ${oper.op_column}
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	17 #end for
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	18 < $in_file > $out_file
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	19 </command>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	20 <inputs>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	21 <param format="tabular" name="in_file" type="data" label="Select Input Data" help=""/>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	22
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	23 <param name="grouping" label="Group by fields" type="text" help="Example: 1,4 - To group by the first and fourth fields. Leave empty to perform operation on entire file as one group."/>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	24
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	25 <param name="header_in" type="boolean" truevalue="--header-in" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	26 label="Input file has a header line" help="Mark this if the input file's first line is a header line" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	27
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	28 <param name="header_out" type="boolean" truevalue="--header-out" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	29 label="Print header line" help="Mark this if you want the first line to show the field names" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	30
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	31 <param name="need_sort" type="boolean" truevalue="--sort" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	32 label="Sort input" help="Mark if the input file is not sorted. If the input file is already sorted, unmark this option to reduce computing time." />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	33
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	34 <param name="print_full_line" type="boolean" truevalue="--full" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	35 label="Print all fields from input file" help="If set, all input fields will be printed. If unset, only fields used for grouping will be printed." />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	36
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	37 <param name="ignore_case" type="boolean" truevalue="--ignore-case" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	38 label="Ignore case when grouping" help="If set, upper/lowercase differences will be ignored when grouping fields." />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	39
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	40 <repeat name="operations" title="Operation to perform on each group">
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	41 <param name="op_name" type="select" label="Type">
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	42 <option value="count">count</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	43 <option value="sum">sum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	44 <option value="min">minimum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	45 <option value="max">maximum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	46 <option value="absmin">Absolute minimum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	47 <option value="absmax">Absolute maximum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	48 <option value="mean">Mean</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	49 <option value="median">Median</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	50 <option value="mode">Mode</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	51 <option value="antimode">Anti-Mode</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	52 <option value="pstdev">Population Standard deviantion</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	53 <option value="sstdev">Sample Standard deviantion</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	54 <option value="unique">Combine all unique values</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	55 <option value="collapse">Combine all values</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	56 <option value="countunique">Count Unique values</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	57 </param>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	58 <param name="op_column" label="On column" type="data_column" data_ref="in_file" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	59 </repeat>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	60 </inputs>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	61
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	62 <outputs>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	63 <data format="tabular" name="out_file" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	64 </outputs>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	65
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	66 <requirements>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	67 <requirement type="package" version="1.0.3">compute_cli</requirement>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	68 </requirements>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	69
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	70 <tests>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	71 <test>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	72 <param name="in_file" value="group_compute_input.txt" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	73 <param name="grouping" value="2" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	74 <param name="header_in" value="true" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	75 <param name="header_out" value="true" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	76 <param name="need_sort" value="true" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	77 <param name="print_full_line" value="false" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	78 <param name="op_column" value="3" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	79 <param name="op_name" value="sum" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	80 <param name="ignore_case" value="false" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	81 <output name="out_file" file="group_compute_output.txt" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	82 </test>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	83 </tests>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	84 <help>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	85
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	86 .. class:: infomark
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	87
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	88 TIP: Input data must be TAB delimited. If the desired dataset does not appear in the input list, use Text Manipulation->Convert to convert it to Tabular type.
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	89
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	90 -----
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	91
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	92 Syntax
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	93
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	94 This tools performs common operations (such as summing, counting, mean, standard-deviation) on input file, based on tabular data. The tool can also optionaly group the input based on a given field.
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	95
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	96 -----
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	97
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	98 Example 1
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	99
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	100 - Find the average score in statistics course of college students, grouped by their college major. The input file has three fields (Name,Major,Score) and a header line::
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	101
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	102 Name Major Score
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	103 Bryan Arts 68
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	104 Isaiah Arts 80
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	105 Gabriel Health-Medicine 100
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	106 Tysza Business 92
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	107 Zackery Engineering 54
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	108 ...
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	109 ...
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	110
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	111 - Grouping the input by the second column (Major), and performing operations mean and sample standard deviation on the third column (Score), gives::
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	112
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	113 GroupBy(Major) mean(Score) sstdev(Score)
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	114 Arts 68.9474 10.4215
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	115 Business 87.3636 5.18214
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	116 Engineering 66.5385 19.8814
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	117 Health-Medicine 90.6154 9.22441
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	118 Life-Sciences 55.3333 20.606
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	119 Social-Sciences 60.2667 17.2273
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	120
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	121 This sample file is available at http://agordon.github.io/compute/examples.html .
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	122
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	123 Example 2
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	124
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	125 - Using the UCSC RefSeq Human Gene Track, available at: http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	126
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	127 - List the number and identifiers of isoforms per gene. The gene identifier is in column 13, the isoform/transcript identifier is in column 2. Grouping by column 13 and performing count and Combine all values on column 2, gives::
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	128
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	129 GroupBy(field-13) count(field-2) collapse(field-2)
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	130 A1BG 1 NM_130786
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	131 A1BG-AS1 1 NR_015380
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	132 A1CF 6 NM_001198818,NM_001198819,NM_001198820,NM_014576,NM_138932,NM_138933
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	133 A2M 1 NM_000014
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	134 A2M-AS1 1 NR_026971
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	135 A2ML1 2 NM_001282424,NM_144670
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	136 ...
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	137
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	138 - Count how many transcripts are listed for each chromosome and strand. Chromosome is on column 3, Strand is in column 4. Transcript identifiers are in column 2. Grouping by columns 3,4 and performing operation count on column 2, gives::
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	139
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	140 GroupBy(field-3) GroupBy(field-4) count(field-2)
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	141 chr1 + 2456
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	142 chr1 - 2431
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	143 chr2 + 1599
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	144 chr2 - 1419
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	145 chr3 + 1287
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	146 chr3 - 1249
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	147 ...
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	148
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	149 -----
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	150
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	151 Compute is an open-sourced program, see more details on the Compute_ Website.
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	152
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	153 Compute is also available as a command-line program, see http://agordon.github.io/compute/examples.html .
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	154
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	155 .. _Compute: http://agordon.github.io/compute/
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	156
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	157 </help>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	158 </tool>

0

ea8ec99cae2c First version