mayatool3_test2: docs/scripts/txt/ExtractFromTextFiles.txt annotate

annotate docs/scripts/txt/ExtractFromTextFiles.txt @ 0:4816e4a8ae95 draft default tip

Uploaded

author	deepakjadmin
date	Wed, 20 Jan 2016 09:23:18 -0500
parents
children

rev	line source
0 4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	1 NAME
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	2 ExtractFromTextFiles.pl - Extract specific data from TextFile(s)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	3
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	4 SYNOPSIS
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	5 ExtractFromTextFiles.pl TextFile(s)...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	6
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	7 ExtractFromTextFiles.pl [-c, --colmode colnum \| collabel] [--categorycol
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	8 number \| string] [--columns "colnum,[colnum]..." \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	9 "collabel,[collabel]..."] [-h, --help] [--indelim comma \| semicolon]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	10 [-m, --mode columns \| rows \| categories] [-o, --overwrite] [--outdelim
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	11 comma \| tab \| semicolon] [-q, --quote yes \| no] [--rows
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	12 "colid,value,criteria..." \| "colid,value..." \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	13 "colid,mincolvalue,maxcolvalue" \| "rownum,rownum,..." \| colid \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	14 "minrownum,maxrownum"] [ --rowsmode rowsbycolvalue \| rowsbycolvaluelist
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	15 \| rowsbycolvaluerange \| rowbymincolvalue \| rowbymaxcolvalue \| rownums \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	16 rownumrange] [-r, --root rootname] [-w, --workingdir dirname]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	17 TextFile(s)...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	18
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	19 DESCRIPTION
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	20 Extract column(s)/row(s) data from TextFile(s) identified by column
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	21 numbers or labels. Or categorize data using a specified column category.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	22 During categorization, a summary text file is generated containing
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	23 category name and count; an additional text file, containing data for
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	24 for each category, is also generated. The file names are separated by
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	25 space. The valid file extensions are .csv and .tsv for
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	26 comma/semicolon and tab delimited text files respectively. All other
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	27 file names are ignored. All the text files in a current directory can be
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	28 specified by *.csv, *.tsv, or the current directory name. The
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	29 --indelim option determines the format of TextFile(s). Any file which
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	30 doesn't correspond to the format indicated by --indelim option is
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	31 ignored.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	32
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	33 OPTIONS
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	34 -c, --colmode colnum \| collabel
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	35 Specify how columns are identified in TextFile(s): using column
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	36 number or column label. Possible values: colnum or collabel.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	37 Default value: colnum.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	38
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	39 --categorycol number \| string
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	40 Column used to categorize data. Default value: First column.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	41
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	42 For colnum value of -c, --colmode option, input value is a column
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	43 number. Example: 1.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	44
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	45 For collabel value of -c, --colmode option, input value is a
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	46 column label. Example: Mol_ID.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	47
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	48 --columns "colnum,[colnum]..." \| "collabel,[collabel]..."
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	49 List of comma delimited columns to extract. Default value: First
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	50 column.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	51
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	52 For colnum value of -c, --colmode option, input values format is:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	53 colnum,colnum,.... Example: 1,3,5
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	54
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	55 For collabel value of -c, --colmode option, input values format
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	56 is: collabel,collabel,... Example: Mol_ID,MolWeight
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	57
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	58 -h, --help
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	59 Print this help message.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	60
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	61 --indelim comma \| semicolon
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	62 Input delimiter for CSV TextFile(s). Possible values: *comma or
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	63 semicolon. Default value: comma*. For TSV files, this option is
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	64 ignored and tab is used as a delimiter.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	65
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	66 -m, --mode columns \| rows \| categories
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	67 Specify what to extract from TextFile(s). Possible values:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	68 columns, rows, or categories. Default value: columns.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	69
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	70 For columns mode, data for appropriate columns specified by
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	71 --columns option is extracted from TextFile(s) and placed into new
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	72 text files.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	73
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	74 For rows mode, appropriate rows specified in conjuction with
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	75 --rowsmode and rows options are extracted from TextFile(s) and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	76 placed into new text files.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	77
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	78 For categories mode, coulmn specified by --categorycol is used to
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	79 categorize data, and a summary text file is generated containing
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	80 category name and count; an additional text file, containing data
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	81 for for each category, is also generated.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	82
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	83 -o, --overwrite
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	84 Overwrite existing files.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	85
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	86 --outdelim comma \| tab \| semicolon.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	87 Output text file delimiter. Possible values: *comma, tab, or
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	88 semicolon. Default value: comma*
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	89
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	90 -q, --quote yes \| no
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	91 Put quotes around column values in output text file. Possible
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	92 values: yes or no. Default value: yes.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	93
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	94 -r, --root rootname
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	95 New file name is generated using the root: <Root>.<Ext>. Default for
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	96 new file names: <TextFile>CategoriesSummary.<Ext>,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	97 <TextFile>ExtractedColumns.<Ext>, and <TextFile>ExtractedRows.<Ext>
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	98 for categories, columns, and rows mode respectively. And
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	99 <TextFile>Category<CategoryName>.<Ext> for each category retrieved
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	100 from each text file. The output file type determines <Ext> value:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	101 csv and tsv for CSV, and TSV files respectively.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	102
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	103 This option is ignored for multiple input files.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	104
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	105 --rows *"colid,value,criteria..." \| "colid,value..." \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	106 "colid,mincolvalue,maxcolvalue" \| "rownum,rownum,..." \| colid \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	107 "minrownum,maxrownum"*
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	108 This value is --rowsmode specific. In general, it's a list of comma
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	109 separated column ids and associated mode specific value. Based on
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	110 Column ids specification, column label or number, is controlled by
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	111 -c, --colmode option.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	112
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	113 First line containing column labels is always written out. And value
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	114 comparisons assume numerical column data.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	115
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	116 For rowsbycolvalue mode, input value format contains these
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	117 triplets: colid,value, criteria.... Possible values for criteria:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	118 le, ge or eq. Examples:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	119
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	120 MolWt,450,le
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	121 MolWt,450,le,LogP,5,le,SumNumNO,10,le,SumNHOH,5,le
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	122
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	123 For rowsbycolvaluelist mode, input value format is:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	124 colid,value.... Examples:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	125
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	126 Mol_ID,20
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	127 Mol_ID,20,1002,1115
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	128
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	129 For rowsbycolvaluerange mode, input value format is:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	130 colid,mincolvalue,maxcolvalue. Examples:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	131
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	132 MolWt,100,450
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	133
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	134 For rowbymincolvalue, rowbymaxcolvalue modes, input value format
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	135 is: colid.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	136
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	137 For rownum mode, input value format is: rownum. Default value:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	138 2.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	139
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	140 For rownumrange mode, input value format is: *minrownum,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	141 maxrownum*. Examples:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	142
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	143 10,40
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	144
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	145 --rowsmode *rowsbycolvalue \| rowsbycolvaluelist \| rowsbycolvaluerange \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	146 rowbymincolvalue \| rowbymaxcolvalue \| rownums \| rownumrange*
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	147 Specify how to extract rows from TextFile(s). Possible values:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	148 *rowsbycolvalue, rowsbycolvaluelist, rowsbycolvaluerange,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	149 rowbymincolvalue, rowbymaxcolvalue, rownum, rownumrange*. Default
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	150 value: rownum.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	151
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	152 Use --rows option to list rows criterion used for extraction of rows
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	153 from TextFile(s).
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	154
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	155 -w, --workingdir dirname
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	156 Location of working directory. Default: current directory.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	157
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	158 EXAMPLES
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	159 To extract first column from a text file and generate a new CSV text
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	160 file NewSample1.csv, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	161
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	162 % ExtractFromTextFiles.pl -r NewSample1 -o Sample1.csv
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	163
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	164 To extract columns Mol_ID, MolWeight, and NAME from Sample1.csv and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	165 generate a new textfile NewSample1.tsv with no quotes, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	166
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	167 % ExtractFromTextFiles.pl -m columns -c collabel --columns "Mol_ID,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	168 MolWeight,NAME" --outdelim tab --quote no -r NewSample1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	169 -o Sample1.csv
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	170
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	171 To extract rows containing values for MolWeight column of less than 450
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	172 from Sample1.csv and generate a new textfile NewSample1.csv, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	173
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	174 % ExtractFromTextFiles.pl -m rows --rowsmode rowsbycolvalue
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	175 -c collabel --rows MolWeight,450,le -r NewSample1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	176 -o Sample1.csv
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	177
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	178 To extract rows containing values for MolWeight column between 400 and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	179 500 from Sample1.csv and generate a new textfile NewSample1.csv, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	180
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	181 % ExtractFromTextFiles.pl -m rows --rowsmode rowsbycolvaluerange
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	182 -c collabel --rows MolWeight,450,500 -r NewSample1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	183 -o Sample1.csv
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	184
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	185 To extract a row containing minimum value for column MolWeight from
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	186 Sample1.csv and generate a new textfile NewSample1.csv, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	187
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	188 % ExtractFromTextFiles.pl -m rows --rowsmode rowbymincolvalue
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	189 -c collabel --rows MolWeight -r NewSample1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	190 -o Sample1.csv
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	191
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	192 AUTHOR
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	193 Manish Sud <msud@san.rr.com>
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	194
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	195 SEE ALSO
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	196 JoinTextFiles.pl, MergeTextFilesWithSD.pl, ModifyTextFilesFormat.pl,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	197 SplitTextFiles.pl
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	198
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	199 COPYRIGHT
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	200 Copyright (C) 2015 Manish Sud. All rights reserved.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	201
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	202 This file is part of MayaChemTools.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	203
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	204 MayaChemTools is free software; you can redistribute it and/or modify it
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	205 under the terms of the GNU Lesser General Public License as published by
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	206 the Free Software Foundation; either version 3 of the License, or (at
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	207 your option) any later version.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	208

Mercurial > repos > deepakjadmin > mayatool3_test2

annotate docs/scripts/txt/ExtractFromTextFiles.txt @ 0:4816e4a8ae95 draft default tip