mayatool3_test2: docs/scripts/txt/AnalyzeSequenceFilesData.txt annotate

annotate docs/scripts/txt/AnalyzeSequenceFilesData.txt @ 0:4816e4a8ae95 draft default tip

Uploaded

author	deepakjadmin
date	Wed, 20 Jan 2016 09:23:18 -0500
parents
children

rev	line source
0 4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	1 NAME
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	2 AnalyzeSequenceFilesData.pl - Analyze sequence and alignment files
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	3
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	4 SYNOPSIS
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	5 AnalyzeSequenceFilesData.pl SequenceFile(s) AlignmentFile(s)...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	6
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	7 AnalyzeSequenceFilesData.pl [-h, --help] [-i, --IgnoreGaps yes \| no]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	8 [-m, --mode PercentIdentityMatrix \| ResidueFrequencyAnalysis \| All]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	9 [--outdelim comma \| tab \| semicolon] [-o, --overwrite] [-p, --precision
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	10 number] [-q, --quote yes \| no] [--ReferenceSequence SequenceID \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	11 UseFirstSequenceID] [--region "StartResNum, EndResNum, [StartResNum,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	12 EndResNum...]" \| UseCompleteSequence] [--RegionResiduesMode AminoAcids \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	13 NucleicAcids \| None] [-w, --WorkingDir dirname] SequenceFile(s)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	14 AlignmentFile(s)...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	15
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	16 DESCRIPTION
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	17 Analyze SequenceFile(s) and AlignmentFile(s) data: calculate pairwise
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	18 percent identity matrix or calculate percent occurrence of various
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	19 residues in specified sequence regions. All the sequences in the input
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	20 file must have the same sequence lengths; otherwise, the sequence file
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	21 is ignored.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	22
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	23 The file names are separated by spaces. All the sequence files in a
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	24 current directory can be specified by *.aln, *.msf, *.fasta,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	25 *.fta, *.pir or any other supported formats; additionally, DirName
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	26 corresponds to all the sequence files in the current directory with any
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	27 of the supported file extension: .aln, .msf, .fasta, .fta, and .pir.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	28
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	29 Supported sequence formats are: ALN/CLustalW, GCG/MSF, PILEUP/MSF,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	30 Pearson/FASTA, and NBRF/PIR. Instead of using file extensions, file
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	31 formats are detected by parsing the contents of *SequenceFile(s) and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	32 AlignmentFile(s)*.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	33
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	34 OPTIONS
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	35 -h, --help
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	36 Print this help message.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	37
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	38 -i, --IgnoreGaps yes \| no
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	39 Ignore gaps during calculation of sequence lengths and specification
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	40 of regions during residue frequency analysis. Possible values: *yes
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	41 or no. Default value: yes*.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	42
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	43 -m, --mode PercentIdentityMatrix \| ResidueFrequencyAnalysis \| All
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	44 Specify how to analyze data in sequence files: calculate percent
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	45 identity matrix or calculate frequency of occurrence of residues in
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	46 specific regions. During ResidueFrequencyAnalysis value of -m,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	47 --mode option, output files are generated for both the residue count
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	48 and percent residue count. Possible values: *PercentIdentityMatrix,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	49 ResidueFrequencyAnalysis, or All*. Default value:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	50 PercentIdentityMatrix.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	51
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	52 --outdelim comma \| tab \| semicolon
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	53 Output text file delimiter. Possible values: *comma, tab, or
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	54 semicolon. Default value: comma*.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	55
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	56 -o, --overwrite
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	57 Overwrite existing files.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	58
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	59 -p, --precision number
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	60 Precision of calculated values in the output file. Default: up to
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	61 2 decimal places. Valid values: positive integers.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	62
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	63 -q, --quote yes \| no
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	64 Put quotes around column values in output text file. Possible
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	65 values: yes or no. Default value: yes.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	66
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	67 --ReferenceSequence SequenceID \| UseFirstSequenceID
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	68 Specify reference sequence ID to identify regions for performing
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	69 ResidueFrequencyAnalysis specified using -m, --mode option.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	70 Default: UseFirstSequenceID.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	71
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	72 --region *StartResNum,EndResNum,[StartResNum,EndResNum...] \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	73 UseCompleteSequence*
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	74 Specify how to perform frequency of occurrence analysis for
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	75 residues: use specific regions indicated by starting and ending
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	76 residue numbers in reference sequence or use the whole reference
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	77 sequence as one region. Default: UseCompleteSequence.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	78
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	79 Based on the value of -i, --IgnoreGaps option, specified residue
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	80 numbers StartResNum,EndResNum correspond to the positions in the
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	81 reference sequence without gaps or with gaps.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	82
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	83 For residue numbers corresponding to the reference sequence
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	84 including gaps, percent occurrence of various residues corresponding
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	85 to gap position in reference sequence is also calculated.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	86
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	87 --RegionResiduesMode AminoAcids \| NucleicAcids \| None
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	88 Specify how to process residues in the regions specified using
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	89 --region option during ResidueFrequencyAnalysis calculation:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	90 categorize residues as amino acids, nucleic acids, or simply ignore
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	91 residue category during the calculation. Possible values:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	92 AminoAcids, NucleicAcids or None. Default value: None.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	93
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	94 For AminoAcids or NucleicAcids values of --RegionResiduesMode
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	95 option, all the standard amino acids or nucleic acids are listed in
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	96 the output file for each region; Any gaps and other non standard
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	97 residues are added to the list as encountered.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	98
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	99 For None value of --RegionResiduesMode option, no assumption is
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	100 made about type of residues. Residue and gaps are added to the list
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	101 as encountered.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	102
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	103 -r, --root rootname
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	104 New sequence file name is generated using the root:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	105 <Root><Mode>.<Ext> and <Root><Mode><RegionNum>.<Ext>. Default new
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	106 file name: <SequenceFileName><Mode>.<Ext> for
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	107 PercentIdentityMatrix value m, --mode option and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	108 <SequenceFileName><Mode><RegionNum>.<Ext> for
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	109 ResidueFrequencyAnalysis. The csv, and tsv <Ext> values are used
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	110 for comma/semicolon, and tab delimited text files respectively. This
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	111 option is ignored for multiple input files.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	112
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	113 -w --WorkingDir text
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	114 Location of working directory. Default: current directory.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	115
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	116 EXAMPLES
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	117 To calculate percent identity matrix for all sequences in Sample1.msf
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	118 file and generate Sample1PercentIdentityMatrix.csv, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	119
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	120 % AnalyzeSequenceFilesData.pl Sample1.msf
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	121
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	122 To perform residue frequency analysis for all sequences in Sample1.aln
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	123 file corresponding to non-gap positions in the first sequence and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	124 generate Sample1ResidueFrequencyAnalysisRegion1.csv and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	125 Sample1PercentResidueFrequencyAnalysisRegion1.csv files, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	126
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	127 % AnalyzeSequenceFilesData.pl -m ResidueFrequencyAnalysis -o
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	128 Sample1.aln
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	129
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	130 To perform residue frequency analysis for all sequences in Sample1.aln
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	131 file corresponding to all positions in the first sequence and generate
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	132 TestResidueFrequencyAnalysisRegion1.csv and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	133 TestPercentResidueFrequencyAnalysisRegion1.csv files, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	134
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	135 % AnalyzeSequenceFilesData.pl -m ResidueFrequencyAnalysis --IgnoreGaps
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	136 No -o -r Test Sample1.aln
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	137
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	138 To perform residue frequency analysis for all sequences in Sample1.aln
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	139 file corresponding to non-gap residue positions 5 to 10, and 30 to 40 in
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	140 sequence ACHE_BOVIN and generate
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	141 Sample1ResidueFrequencyAnalysisRegion1.csv,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	142 Sample1ResidueFrequencyAnalysisRegion2.csv,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	143 SamplePercentResidueFrequencyAnalysisRegion1.csv, and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	144 SamplePercentResidueFrequencyAnalysisRegion2.csv files, type:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	145
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	146 % AnalyzeSequenceFilesData.pl -m ResidueFrequencyAnalysis
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	147 --ReferenceSequence ACHE_BOVIN --region "5,15,30,40" -o Sample1.msf
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	148
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	149 AUTHOR
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	150 Manish Sud <msud@san.rr.com>
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	151
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	152 SEE ALSO
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	153 ExtractFromSequenceFiles.pl, InfoSequenceFiles.pl
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	154
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	155 COPYRIGHT
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	156 Copyright (C) 2015 Manish Sud. All rights reserved.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	157
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	158 This file is part of MayaChemTools.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	159
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	160 MayaChemTools is free software; you can redistribute it and/or modify it
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	161 under the terms of the GNU Lesser General Public License as published by
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	162 the Free Software Foundation; either version 3 of the License, or (at
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	163 your option) any later version.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	164

Mercurial > repos > deepakjadmin > mayatool3_test2

annotate docs/scripts/txt/AnalyzeSequenceFilesData.txt @ 0:4816e4a8ae95 draft default tip