compute_wrapper: compute.xml annotate

annotate compute.xml @ 1:b8e386e9fd0b draft

Update package dependencies

author	Assaf Gordon <assafgordon@gmail.com>
date	Sat, 22 Mar 2014 16:23:47 -0400
parents	ea8ec99cae2c
children	849d3bd2897c

rev	line source
1 b8e386e9fd0b Update package dependencies Assaf Gordon <assafgordon@gmail.com> parents: 0 diff changeset	1 <tool id="GroupCompute" name="Group and Compute" version="1.0.3">
0 ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	2 <description>operations on tabular data.</description>
1 b8e386e9fd0b Update package dependencies Assaf Gordon <assafgordon@gmail.com> parents: 0 diff changeset	3
b8e386e9fd0b Update package dependencies Assaf Gordon <assafgordon@gmail.com> parents: 0 diff changeset	4 <requirements>
b8e386e9fd0b Update package dependencies Assaf Gordon <assafgordon@gmail.com> parents: 0 diff changeset	5 <requirement type="package" version="1.0.3">compute</requirement>
b8e386e9fd0b Update package dependencies Assaf Gordon <assafgordon@gmail.com> parents: 0 diff changeset	6 </requirements>
b8e386e9fd0b Update package dependencies Assaf Gordon <assafgordon@gmail.com> parents: 0 diff changeset	7
0 ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	8 <command>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	9 compute
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	10 $header_in
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	11 $header_out
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	12 $need_sort
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	13 $print_full_line
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	14 $ignore_case
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	15 #if str($grouping)>0
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	16 --group '$grouping'
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	17 #end if
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	18 -T
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	19 #for $oper in $operations
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	20 ${oper.op_name}
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	21 ${oper.op_column}
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	22 #end for
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	23 < $in_file > $out_file
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	24 </command>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	25 <inputs>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	26 <param format="tabular" name="in_file" type="data" label="Select Input Data" help=""/>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	27
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	28 <param name="grouping" label="Group by fields" type="text" help="Example: 1,4 - To group by the first and fourth fields. Leave empty to perform operation on entire file as one group."/>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	29
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	30 <param name="header_in" type="boolean" truevalue="--header-in" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	31 label="Input file has a header line" help="Mark this if the input file's first line is a header line" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	32
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	33 <param name="header_out" type="boolean" truevalue="--header-out" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	34 label="Print header line" help="Mark this if you want the first line to show the field names" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	35
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	36 <param name="need_sort" type="boolean" truevalue="--sort" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	37 label="Sort input" help="Mark if the input file is not sorted. If the input file is already sorted, unmark this option to reduce computing time." />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	38
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	39 <param name="print_full_line" type="boolean" truevalue="--full" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	40 label="Print all fields from input file" help="If set, all input fields will be printed. If unset, only fields used for grouping will be printed." />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	41
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	42 <param name="ignore_case" type="boolean" truevalue="--ignore-case" falsevalue=""
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	43 label="Ignore case when grouping" help="If set, upper/lowercase differences will be ignored when grouping fields." />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	44
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	45 <repeat name="operations" title="Operation to perform on each group">
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	46 <param name="op_name" type="select" label="Type">
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	47 <option value="count">count</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	48 <option value="sum">sum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	49 <option value="min">minimum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	50 <option value="max">maximum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	51 <option value="absmin">Absolute minimum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	52 <option value="absmax">Absolute maximum</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	53 <option value="mean">Mean</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	54 <option value="median">Median</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	55 <option value="mode">Mode</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	56 <option value="antimode">Anti-Mode</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	57 <option value="pstdev">Population Standard deviantion</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	58 <option value="sstdev">Sample Standard deviantion</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	59 <option value="unique">Combine all unique values</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	60 <option value="collapse">Combine all values</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	61 <option value="countunique">Count Unique values</option>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	62 </param>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	63 <param name="op_column" label="On column" type="data_column" data_ref="in_file" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	64 </repeat>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	65 </inputs>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	66
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	67 <outputs>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	68 <data format="tabular" name="out_file" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	69 </outputs>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	70
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	71 <tests>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	72 <test>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	73 <param name="in_file" value="group_compute_input.txt" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	74 <param name="grouping" value="2" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	75 <param name="header_in" value="true" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	76 <param name="header_out" value="true" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	77 <param name="need_sort" value="true" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	78 <param name="print_full_line" value="false" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	79 <param name="op_column" value="3" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	80 <param name="op_name" value="sum" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	81 <param name="ignore_case" value="false" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	82 <output name="out_file" file="group_compute_output.txt" />
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	83 </test>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	84 </tests>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	85 <help>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	86
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	87 .. class:: infomark
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	88
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	89 TIP: Input data must be TAB delimited. If the desired dataset does not appear in the input list, use Text Manipulation->Convert to convert it to Tabular type.
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	90
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	91 -----
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	92
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	93 Syntax
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	94
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	95 This tools performs common operations (such as summing, counting, mean, standard-deviation) on input file, based on tabular data. The tool can also optionaly group the input based on a given field.
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	96
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	97 -----
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	98
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	99 Example 1
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	100
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	101 - Find the average score in statistics course of college students, grouped by their college major. The input file has three fields (Name,Major,Score) and a header line::
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	102
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	103 Name Major Score
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	104 Bryan Arts 68
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	105 Isaiah Arts 80
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	106 Gabriel Health-Medicine 100
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	107 Tysza Business 92
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	108 Zackery Engineering 54
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	109 ...
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	110 ...
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	111
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	112 - Grouping the input by the second column (Major), and performing operations mean and sample standard deviation on the third column (Score), gives::
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	113
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	114 GroupBy(Major) mean(Score) sstdev(Score)
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	115 Arts 68.9474 10.4215
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	116 Business 87.3636 5.18214
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	117 Engineering 66.5385 19.8814
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	118 Health-Medicine 90.6154 9.22441
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	119 Life-Sciences 55.3333 20.606
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	120 Social-Sciences 60.2667 17.2273
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	121
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	122 This sample file is available at http://agordon.github.io/compute/examples.html .
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	123
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	124 Example 2
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	125
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	126 - Using the UCSC RefSeq Human Gene Track, available at: http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	127
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	128 - List the number and identifiers of isoforms per gene. The gene identifier is in column 13, the isoform/transcript identifier is in column 2. Grouping by column 13 and performing count and Combine all values on column 2, gives::
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	129
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	130 GroupBy(field-13) count(field-2) collapse(field-2)
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	131 A1BG 1 NM_130786
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	132 A1BG-AS1 1 NR_015380
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	133 A1CF 6 NM_001198818,NM_001198819,NM_001198820,NM_014576,NM_138932,NM_138933
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	134 A2M 1 NM_000014
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	135 A2M-AS1 1 NR_026971
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	136 A2ML1 2 NM_001282424,NM_144670
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	137 ...
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	138
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	139 - Count how many transcripts are listed for each chromosome and strand. Chromosome is on column 3, Strand is in column 4. Transcript identifiers are in column 2. Grouping by columns 3,4 and performing operation count on column 2, gives::
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	140
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	141 GroupBy(field-3) GroupBy(field-4) count(field-2)
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	142 chr1 + 2456
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	143 chr1 - 2431
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	144 chr2 + 1599
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	145 chr2 - 1419
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	146 chr3 + 1287
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	147 chr3 - 1249
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	148 ...
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	149
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	150 -----
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	151
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	152 Compute is an open-sourced program, see more details on the Compute_ Website.
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	153
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	154 Compute is also available as a command-line program, see http://agordon.github.io/compute/examples.html .
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	155
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	156 .. _Compute: http://agordon.github.io/compute/
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	157
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	158 </help>
ea8ec99cae2c First version Assaf Gordon <assafgordon@gmail.com> parents: diff changeset	159 </tool>

Mercurial > repos > agordon > compute_wrapper

annotate compute.xml @ 1:b8e386e9fd0b draft