mayatool3_test2: docs/scripts/txt/SimilaritySearchingFingerprints.txt annotate

author	deepakjadmin
date	Wed, 20 Jan 2016 09:23:18 -0500
parents
children

rev	line source
0 4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	1 NAME
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	2 SimilaritySearchingFingerprints.pl - Perform similarity search using
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	3 fingerprints strings data in SD, FP and CSV/TSV text file(s)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	4
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	5 SYNOPSIS
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	6 SimilaritySearchingFingerprints.pl ReferenceFPFile DatabaseFPFile
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	7
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	8 SimilaritySearchingFingerprints.pl [--alpha number] [--beta number]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	9 [-b, --BitVectorComparisonMode *TanimotoSimilarity \| TverskySimilarity \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	10 ...] [--DatabaseColMode ColNum \| ColLabel*] [--DatabaseCompoundIDCol
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	11 col number \| col name] [--DatabaseCompoundIDPrefix text]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	12 [--DatabaseCompoundIDField DataFieldName] [--DatabaseCompoundIDMode
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	13 DataField \| MolName \| LabelPrefix \| MolNameOrLabelPrefix]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	14 [--DatabaseDataCols *"DataColNum1, DataColNum2,... " \| DataColLabel1,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	15 DataCoLabel2,... "] [--DatabaseDataColsMode All \| Specify \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	16 CompoundID] [--DatabaseDataFields "FieldLabel1, FieldLabel2,... "*]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	17 [--DatabaseDataFieldsMode All \| Common \| Specify \| CompoundID]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	18 [--DatabaseFingerprintsCol col number \| col name]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	19 [--DatabaseFingerprintsField FieldLabel] []--DistanceCutoff number]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	20 [-d, --detail InfoLevel] [-f, --fast] [--FingerprintsMode *AutoDetect
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	21 \| FingerprintsBitVectorString \| FingerprintsVectorString*] [-g,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	22 --GroupFusionRule Max, Mean, Median, Min, Sum, Euclidean]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	23 [--GroupFusionApplyCutoff Yes \| No] [-h, --help] [--InDelim *comma \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	24 semicolon] [-k, --KNN all \| number] [-m, --mode IndividualReference
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	25 \| MultipleReferences] [-n, --NumOfSimilarMolecules number*]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	26 [--OutDelim comma \| tab \| semicolon] [--output SD \| text \| both]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	27 [-o, --overwrite] [-p, --PercentSimilarMolecules number] [--precision
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	28 number] [-q, --quote Yes \| No] [--ReferenceColMode *ColNum \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	29 ColLabel] [--ReferenceCompoundIDCol col number \| col name*]
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	30 [--ReferenceCompoundIDPrefix text] [--ReferenceCompoundIDField
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	31 DataFieldName] [--ReferenceCompoundIDMode *DataField \| MolName \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	32 LabelPrefix \| MolNameOrLabelPrefix] [--ReferenceFingerprintsCol col
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	33 number \| col name] [--ReferenceFingerprintsField FieldLabel*] [-r,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	34 --root RootName] [-s, --SearchMode *SimilaritySearch \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	35 DissimilaritySearch] [--SimilarCountMode NumOfSimilar \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	36 PercentSimilar] [--SimilarityCutoff number*] [-v,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	37 --VectorComparisonMode *TanimotoSimilairy \| ... \| ManhattanDistance \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	38 ...] [--VectorComparisonFormulism AlgebraicForm \| BinaryForm \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	39 SetTheoreticForm*] [-w, --WorkingDir dirname] ReferenceFingerprintsFile
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	40 DatabaseFingerprintsFile
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	41
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	42 DESCRIPTION
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	43 Perform molecular similarity search [ Ref 94-113 ] using fingerprint
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	44 bit-vector or vector strings data in SD, FP, or CSV/TSV text files
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	45 corresponding to ReferenceFingerprintsFile and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	46 DatabaseFingerprintsFile, and generate SD and CSV/TSV text file(s)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	47 containing database molecules which are similar to reference
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	48 molecule(s). The reference molecules are also referred to as query or
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	49 seed molecules and database molecules as target molecules in the
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	50 literature.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	51
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	52 The current release of MayaChemTools supports two types of similarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	53 search modes: IndividualReference or MultipleReferences. For default
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	54 value of MultipleReferences for -m, --mode option, reference molecules
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	55 are considered as a set and -g, --GroupFusionRule is used to calculate
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	56 similarity of a database molecule against reference molecules set. The
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	57 group fusion rule is also referred to as data fusion of consensus
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	58 scoring in the literature. However, for IndividualReference value of
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	59 -m, --mode option, reference molecules are treated as individual
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	60 molecules and each reference molecule is compared against a database
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	61 molecule by itself to identify similar molecules.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	62
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	63 The molecular dissimilarity search can also be performed using
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	64 DissimilaritySearch value for -s, --SearchMode option. During
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	65 dissimilarity search or usage of distance comparison coefficient in
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	66 similarity similarity search, the meaning of fingerprints comparison
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	67 value is automatically reversed as shown below:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	68
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	69 SeachMode ComparisonCoefficient ResultsSort ComparisonValues
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	70
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	71 Similarity SimilarityCoefficient Descending Higher value imples
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	72 high similarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	73 Similarity DistanceCoefficient Ascending Lower value implies
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	74 high similarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	75
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	76 Dissimilarity SimilarityCoefficient Ascending Lower value implies
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	77 high dissimilarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	78 Dissimilarity DistanceCoefficient Descending Higher value implies
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	79 high dissimilarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	80
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	81 During IndividualReference value of -m, --Mode option for similarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	82 search, fingerprints bit-vector or vector string of each reference
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	83 molecule is compared with database molecules using specified similarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	84 or distance coefficients to identify most similar molecules for each
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	85 reference molecule. Based on value of --SimilarCountMode, up to --n,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	86 --NumOfSimilarMolecules or -p, --PercentSimilarMolecules at specified
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	87 --SimilarityCutoff or --DistanceCutoff are identified for each reference
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	88 molecule.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	89
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	90 During MultipleReferences value -m, --mode option for similarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	91 search, all reference molecules are considered as a set and -g,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	92 --GroupFusionRule is used to calculate similarity of a database molecule
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	93 against reference molecules set either using all reference molecules or
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	94 number of k-nearest neighbors (k-NN) to a database molecule specified
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	95 using -k, --kNN. The fingerprints bit-vector or vector string of each
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	96 reference molecule in a set is compared with a database molecule using a
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	97 similarity or distance coefficient specified via -b,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	98 --BitVectorComparisonMode or -v, --VectorComparisonMode. The reference
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	99 molecules whose comparison values with a database molecule fall outside
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	100 specified --SimilarityCutoff or --DistanceCutoff are ignored during
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	101 Yes value of --GroupFusionApplyCutoff. The specified -g,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	102 --GroupFusionRule is applied to -k, --kNN reference molecules to
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	103 calculate final similarity value between a database molecule and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	104 reference molecules set.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	105
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	106 The input fingerprints SD, FP, or Text (CSV/TSV) files for
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	107 ReferenceFingerprintsFile and DatabaseTextFile must contain valid
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	108 fingerprint bit-vector or vector strings data corresponding to same type
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	109 of fingerprints.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	110
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	111 The valid fingerprints SDFile extensions are .sdf and .sd. The
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	112 valid fingerprints FPFile extensions are .fpf and .fp. The valid
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	113 fingerprints TextFile (CSV/TSV) extensions are .csv and .tsv for
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	114 comma/semicolon and tab delimited text files respectively. The --indelim
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	115 option determines the format of TextFile. Any file which doesn't
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	116 correspond to the format indicated by --indelim option is ignored.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	117
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	118 Example of FP file containing fingerprints bit-vector string data:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	119
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	120 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	121 # Package = MayaChemTools 7.4
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	122 # ReleaseDate = Oct 21, 2010
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	123 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	124 # TimeStamp = Mon Mar 7 15:14:01 2011
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	125 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	126 # FingerprintsStringType = FingerprintsBitVector
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	127 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	128 # Description = PathLengthBits:AtomicInvariantsAtomTypes:MinLength1:...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	129 # Size = 1024
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	130 # BitStringFormat = HexadecimalString
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	131 # BitsOrder = Ascending
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	132 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	133 Cmpd1 9c8460989ec8a49913991a6603130b0a19e8051c89184414953800cc21510...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	134 Cmpd2 000000249400840040100042011001001980410c000000001010088001120...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	135 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	136 ... ..
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	137
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	138 Example of FP file containing fingerprints vector string data:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	139
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	140 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	141 # Package = MayaChemTools 7.4
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	142 # ReleaseDate = Oct 21, 2010
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	143 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	144 # TimeStamp = Mon Mar 7 15:14:01 2011
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	145 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	146 # FingerprintsStringType = FingerprintsVector
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	147 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	148 # Description = PathLengthBits:AtomicInvariantsAtomTypes:MinLength1:...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	149 # VectorStringFormat = IDsAndValuesString
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	150 # VectorValuesType = NumericalValues
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	151 #
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	152 Cmpd1 338;C F N O C:C C:N C=O CC CF CN CO C:C:C C:C:N C:CC C:CF C:CN C:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	153 N:C C:NC CC:N CC=O CCC CCN CCO CNC NC=O O=CO C:C:C:C C:C:C:N C:C:CC...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	154 33 1 2 5 21 2 2 12 1 3 3 20 2 10 2 2 1 2 2 2 8 2 5 1 1 1 19 2 8 2 2 2 2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	155 6 2 2 2 2 2 2 2 2 3 2 2 1 4 1 5 1 1 18 6 2 2 1 2 10 2 1 2 1 2 2 2 2 ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	156 Cmpd2 103;C N O C=N C=O CC CN CO CC=O CCC CCN CCO CNC N=CN NC=O NCN O=C
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	157 O C CC=O CCCC CCCN CCCO CCNC CNC=N CNC=O CNCN CCCC=O CCCCC CCCCN CC...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	158 15 4 4 1 2 13 5 2 2 15 5 3 2 2 1 1 1 2 17 7 6 5 1 1 1 2 15 8 5 7 2 2 2 2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	159 1 2 1 1 3 15 7 6 8 3 4 4 3 2 2 1 2 3 14 2 4 7 4 4 4 4 1 1 1 2 1 1 1 ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	160 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	161 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	162
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	163 Example of SD file containing fingerprints bit-vector string data:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	164
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	165 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	166 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	167 $$$$
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	168 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	169 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	170 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	171 41 44 0 0 0 0 0 0 0 0999 V2000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	172 -3.3652 1.4499 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	173 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	174 2 3 1 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	175 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	176 M END
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	177 > <CmpdID>
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	178 Cmpd1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	179
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	180 > <PathLengthFingerprints>
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	181 FingerprintsBitVector;PathLengthBits:AtomicInvariantsAtomTypes:MinLengt
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	182 h1:MaxLength8;1024;HexadecimalString;Ascending;9c8460989ec8a49913991a66
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	183 03130b0a19e8051c89184414953800cc2151082844a201042800130860308e8204d4028
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	184 00831048940e44281c00060449a5000ac80c894114e006321264401600846c050164462
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	185 08190410805000304a10205b0100e04c0038ba0fad0209c0ca8b1200012268b61c0026a
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	186 aa0660a11014a011d46
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	187
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	188 $$$$
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	189 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	190 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	191
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	192 Example of CSV TextFile containing fingerprints bit-vector string
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	193 data:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	194
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	195 "CompoundID","PathLengthFingerprints"
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	196 "Cmpd1","FingerprintsBitVector;PathLengthBits:AtomicInvariantsAtomTypes
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	197 :MinLength1:MaxLength8;1024;HexadecimalString;Ascending;9c8460989ec8a4
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	198 9913991a6603130b0a19e8051c89184414953800cc2151082844a20104280013086030
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	199 8e8204d402800831048940e44281c00060449a5000ac80c894114e006321264401..."
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	200 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	201 ... ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	202
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	203 The current release of MayaChemTools supports the following types of
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	204 fingerprint bit-vector and vector strings:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	205
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	206 FingerprintsVector;AtomNeighborhoods:AtomicInvariantsAtomTypes:MinRadi
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	207 us0:MaxRadius2;41;AlphaNumericalValues;ValuesString;NR0-C.X1.BO1.H3-AT
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	208 C1:NR1-C.X3.BO3.H1-ATC1:NR2-C.X1.BO1.H3-ATC1:NR2-C.X3.BO4-ATC1 NR0-C.X
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	209 1.BO1.H3-ATC1:NR1-C.X3.BO3.H1-ATC1:NR2-C.X1.BO1.H3-ATC1:NR2-C.X3.BO4-A
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	210 TC1 NR0-C.X2.BO2.H2-ATC1:NR1-C.X2.BO2.H2-ATC1:NR1-C.X3.BO3.H1-ATC1:NR2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	211 -C.X2.BO2.H2-ATC1:NR2-N.X3.BO3-ATC1:NR2-O.X1.BO1.H1-ATC1 NR0-C.X2.B...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	212
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	213 FingerprintsVector;AtomTypesCount:AtomicInvariantsAtomTypes:ArbitraryS
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	214 ize;10;NumericalValues;IDsAndValuesString;C.X1.BO1.H3 C.X2.BO2.H2 C.X2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	215 .BO3.H1 C.X3.BO3.H1 C.X3.BO4 F.X1.BO1 N.X2.BO2.H1 N.X3.BO3 O.X1.BO1.H1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	216 O.X1.BO2;2 4 14 3 10 1 1 1 3 2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	217
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	218 FingerprintsVector;AtomTypesCount:SLogPAtomTypes:ArbitrarySize;16;Nume
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	219 ricalValues;IDsAndValuesString;C1 C10 C11 C14 C18 C20 C21 C22 C5 CS F
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	220 N11 N4 O10 O2 O9;5 1 1 1 14 4 2 1 2 2 1 1 1 1 3 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	221
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	222 FingerprintsVector;AtomTypesCount:SLogPAtomTypes:FixedSize;67;OrderedN
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	223 umericalValues;IDsAndValuesString;C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	224 12 C13 C14 C15 C16 C17 C18 C19 C20 C21 C22 C23 C24 C25 C26 C27 CS N1 N
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	225 2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 N13 N14 NS O1 O2 O3 O4 O5 O6 O7 O8
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	226 O9 O10 O11 O12 OS F Cl Br I Hal P S1 S2 S3 Me1 Me2;5 0 0 0 2 0 0 0 0 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	227 1 0 0 1 0 0 0 14 0 4 2 1 0 0 0 0 0 2 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	228
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	229 FingerprintsVector;EStateIndicies:ArbitrarySize;11;NumericalValues;IDs
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	230 AndValuesString;SaaCH SaasC SaasN SdO SdssC SsCH3 SsF SsOH SssCH2 SssN
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	231 H SsssCH;24.778 4.387 1.993 25.023 -1.435 3.975 14.006 29.759 -0.073 3
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	232 .024 -2.270
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	233
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	234 FingerprintsVector;EStateIndicies:FixedSize;87;OrderedNumericalValues;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	235 ValuesString;0 0 0 0 0 0 0 3.975 0 -0.073 0 0 24.778 -2.270 0 0 -1.435
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	236 4.387 0 0 0 0 0 0 3.024 0 0 0 0 0 0 0 1.993 0 29.759 25.023 0 0 0 0 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	237 4.006 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	238 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	239
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	240 FingerprintsVector;ExtendedConnectivity:AtomicInvariantsAtomTypes:Radi
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	241 us2;60;AlphaNumericalValues;ValuesString;73555770 333564680 352413391
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	242 666191900 1001270906 1371674323 1481469939 1977749791 2006158649 21414
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	243 08799 49532520 64643108 79385615 96062769 273726379 564565671 85514103
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	244 5 906706094 988546669 1018231313 1032696425 1197507444 1331250018 1338
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	245 532734 1455473691 1607485225 1609687129 1631614296 1670251330 17303...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	246
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	247 FingerprintsVector;ExtendedConnectivityCount:AtomicInvariantsAtomTypes
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	248 :Radius2;60;NumericalValues;IDsAndValuesString;73555770 333564680 3524
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	249 13391 666191900 1001270906 1371674323 1481469939 1977749791 2006158649
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	250 2141408799 49532520 64643108 79385615 96062769 273726379 564565671...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	251 3 2 1 1 14 1 2 10 4 3 1 1 1 1 2 1 2 1 1 1 2 3 1 1 2 1 3 3 8 2 2 2 6 2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	252 1 2 1 1 2 1 1 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 1 2 1 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	253
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	254 FingerprintsBitVector;ExtendedConnectivityBits:AtomicInvariantsAtomTyp
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	255 es:Radius2;1024;BinaryString;Ascending;0000000000000000000000000000100
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	256 0000000001010000000110000011000000000000100000000000000000000000100001
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	257 1000000110000000000000000000000000010011000000000000000000000000010000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	258 0000000000000000000000000010000000000000000001000000000000000000000000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	259 0000000000010000100001000000000000101000000000000000100000000000000...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	260
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	261 FingerprintsVector;ExtendedConnectivity:FunctionalClassAtomTypes:Radiu
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	262 s2;57;AlphaNumericalValues;ValuesString;24769214 508787397 850393286 8
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	263 62102353 981185303 1231636850 1649386610 1941540674 263599683 32920567
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	264 1 571109041 639579325 683993318 723853089 810600886 885767127 90326012
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	265 7 958841485 981022393 1126908698 1152248391 1317567065 1421489994 1455
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	266 632544 1557272891 1826413669 1983319256 2015750777 2029559552 20404...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	267
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	268 FingerprintsVector;ExtendedConnectivity:EStateAtomTypes:Radius2;62;Alp
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	269 haNumericalValues;ValuesString;25189973 528584866 662581668 671034184
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	270 926543080 1347067490 1738510057 1759600920 2034425745 2097234755 21450
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	271 44754 96779665 180364292 341712110 345278822 386540408 387387308 50430
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	272 1706 617094135 771528807 957666640 997798220 1158349170 1291258082 134
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	273 1138533 1395329837 1420277211 1479584608 1486476397 1487556246 1566...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	274
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	275 FingerprintsBitVector;MACCSKeyBits;166;BinaryString;Ascending;00000000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	276 0000000000000000000000000000000001001000010010000000010010000000011100
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	277 0100101010111100011011000100110110000011011110100110111111111111011111
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	278 11111111111110111000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	279
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	280 FingerprintsBitVector;MACCSKeyBits;322;BinaryString;Ascending;11101011
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	281 1110011111100101111111000111101100110000000000000011100010000000000000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	282 0000000000000000000000000000000000000000000000101000000000000000000000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	283 0000000000000000000000000000000000000000000000000000000000000000000000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	284 0000000000000000000000000000000000000011000000000000000000000000000000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	285 0000000000000000000000000000000000000000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	286
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	287 FingerprintsVector;MACCSKeyCount;166;OrderedNumericalValues;ValuesStri
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	288 ng;0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	289 0 0 0 0 0 0 0 1 0 0 3 0 0 0 0 4 0 0 2 0 0 0 0 0 0 0 0 2 0 0 2 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	290 0 0 0 0 1 1 8 0 0 0 1 0 0 1 0 1 0 1 0 3 1 3 1 0 0 0 1 2 0 11 1 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	291 5 0 0 1 2 0 1 1 0 0 0 0 0 1 1 0 1 1 1 1 0 4 0 0 1 1 0 4 6 1 1 1 2 1 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	292 3 5 2 2 0 5 3 5 1 1 2 5 1 2 1 2 4 8 3 5 5 2 2 0 3 5 4 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	293
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	294 FingerprintsVector;MACCSKeyCount;322;OrderedNumericalValues;ValuesStri
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	295 ng;14 8 2 0 2 0 4 4 2 1 4 0 0 2 5 10 5 2 1 0 0 2 0 5 13 3 28 5 5 3 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	296 0 4 2 1 1 0 1 1 0 0 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 5 3 0 0 0 1 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	297 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	298 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 2 0 0 0 0 0 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	299 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	300
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	301 FingerprintsBitVector;PathLengthBits:AtomicInvariantsAtomTypes:MinLeng
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	302 th1:MaxLength8;1024;BinaryString;Ascending;001000010011010101011000110
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	303 0100010101011000101001011100110001000010001001101000001001001001001000
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	304 0010110100000111001001000001001010100100100000000011000000101001011100
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	305 0010000001000101010100000100111100110111011011011000000010110111001101
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	306 0101100011000000010001000011000010100011101100001000001000100000000...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	307
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	308 FingerprintsVector;PathLengthCount:AtomicInvariantsAtomTypes:MinLength
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	309 1:MaxLength8;432;NumericalValues;IDsAndValuesPairsString;C.X1.BO1.H3 2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	310 C.X2.BO2.H2 4 C.X2.BO3.H1 14 C.X3.BO3.H1 3 C.X3.BO4 10 F.X1.BO1 1 N.X
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	311 2.BO2.H1 1 N.X3.BO3 1 O.X1.BO1.H1 3 O.X1.BO2 2 C.X1.BO1.H3C.X3.BO3.H1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	312 2 C.X2.BO2.H2C.X2.BO2.H2 1 C.X2.BO2.H2C.X3.BO3.H1 4 C.X2.BO2.H2C.X3.BO
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	313 4 1 C.X2.BO2.H2N.X3.BO3 1 C.X2.BO3.H1:C.X2.BO3.H1 10 C.X2.BO3.H1:C....
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	314
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	315 FingerprintsVector;PathLengthCount:MMFF94AtomTypes:MinLength1:MaxLengt
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	316 h8;463;NumericalValues;IDsAndValuesPairsString;C5A 2 C5B 2 C=ON 1 CB 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	317 8 COO 1 CR 9 F 1 N5 1 NC=O 1 O=CN 1 O=CO 1 OC=O 1 OR 2 C5A:C5B 2 C5A:N
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	318 5 2 C5ACB 1 C5ACR 1 C5B:C5B 1 C5BC=ON 1 C5BCB 1 C=ON=O=CN 1 C=ONNC=O 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	319 CB:CB 18 CBF 1 CBNC=O 1 COO=O=CO 1 COOCR 1 COOOC=O 1 CRCR 7 CRN5 1 CR
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	320 OR 2 C5A:C5B:C5B 2 C5A:C5BC=ON 1 C5A:C5BCB 1 C5A:N5:C5A 1 C5A:N5CR ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	321
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	322 FingerprintsVector;TopologicalAtomPairs:AtomicInvariantsAtomTypes:MinD
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	323 istance1:MaxDistance10;223;NumericalValues;IDsAndValuesString;C.X1.BO1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	324 .H3-D1-C.X3.BO3.H1 C.X2.BO2.H2-D1-C.X2.BO2.H2 C.X2.BO2.H2-D1-C.X3.BO3.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	325 H1 C.X2.BO2.H2-D1-C.X3.BO4 C.X2.BO2.H2-D1-N.X3.BO3 C.X2.BO3.H1-D1-...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	326 2 1 4 1 1 10 8 1 2 6 1 2 2 1 2 1 2 2 1 2 1 5 1 10 12 2 2 1 2 1 9 1 3 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	327 1 1 2 2 1 3 6 1 6 14 2 2 2 3 1 3 1 8 2 2 1 3 2 6 1 2 2 5 1 3 1 23 1...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	328
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	329 FingerprintsVector;TopologicalAtomPairs:FunctionalClassAtomTypes:MinDi
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	330 stance1:MaxDistance10;144;NumericalValues;IDsAndValuesString;Ar-D1-Ar
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	331 Ar-D1-Ar.HBA Ar-D1-HBD Ar-D1-Hal Ar-D1-None Ar.HBA-D1-None HBA-D1-NI H
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	332 BA-D1-None HBA.HBD-D1-NI HBA.HBD-D1-None HBD-D1-None NI-D1-None No...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	333 23 2 1 1 2 1 1 1 1 2 1 1 7 28 3 1 3 2 8 2 1 1 1 5 1 5 24 3 3 4 2 13 4
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	334 1 1 4 1 5 22 4 4 3 1 19 1 1 1 1 1 2 2 3 1 1 8 25 4 5 2 3 1 26 1 4 1 ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	335
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	336 FingerprintsVector;TopologicalAtomTorsions:AtomicInvariantsAtomTypes;3
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	337 3;NumericalValues;IDsAndValuesString;C.X1.BO1.H3-C.X3.BO3.H1-C.X3.BO4-
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	338 C.X3.BO4 C.X1.BO1.H3-C.X3.BO3.H1-C.X3.BO4-N.X3.BO3 C.X2.BO2.H2-C.X2.BO
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	339 2.H2-C.X3.BO3.H1-C.X2.BO2.H2 C.X2.BO2.H2-C.X2.BO2.H2-C.X3.BO3.H1-O...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	340 2 2 1 1 2 2 1 1 3 4 4 8 4 2 2 6 2 2 1 2 1 1 2 1 1 2 6 2 4 2 1 3 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	341
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	342 FingerprintsVector;TopologicalAtomTorsions:EStateAtomTypes;36;Numerica
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	343 lValues;IDsAndValuesString;aaCH-aaCH-aaCH-aaCH aaCH-aaCH-aaCH-aasC aaC
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	344 H-aaCH-aasC-aaCH aaCH-aaCH-aasC-aasC aaCH-aaCH-aasC-sF aaCH-aaCH-aasC-
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	345 ssNH aaCH-aasC-aasC-aasC aaCH-aasC-aasC-aasN aaCH-aasC-ssNH-dssC a...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	346 4 4 8 4 2 2 6 2 2 2 4 3 2 1 3 3 2 2 2 1 2 1 1 1 2 1 1 1 1 1 1 1 2 1 1 2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	347
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	348 FingerprintsVector;TopologicalAtomTriplets:AtomicInvariantsAtomTypes:M
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	349 inDistance1:MaxDistance10;3096;NumericalValues;IDsAndValuesString;C.X1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	350 .BO1.H3-D1-C.X1.BO1.H3-D1-C.X3.BO3.H1-D2 C.X1.BO1.H3-D1-C.X2.BO2.H2-D1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	351 0-C.X3.BO4-D9 C.X1.BO1.H3-D1-C.X2.BO2.H2-D3-N.X3.BO3-D4 C.X1.BO1.H3-D1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	352 -C.X2.BO2.H2-D4-C.X2.BO2.H2-D5 C.X1.BO1.H3-D1-C.X2.BO2.H2-D6-C.X3....;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	353 1 2 2 2 2 2 2 2 8 8 4 8 4 4 2 2 2 2 4 2 2 2 4 2 2 2 2 1 2 2 4 4 4 2 2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	354 2 4 4 4 8 4 4 2 4 4 4 2 4 4 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 8...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	355
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	356 FingerprintsVector;TopologicalAtomTriplets:SYBYLAtomTypes:MinDistance1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	357 :MaxDistance10;2332;NumericalValues;IDsAndValuesString;C.2-D1-C.2-D9-C
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	358 .3-D10 C.2-D1-C.2-D9-C.ar-D10 C.2-D1-C.3-D1-C.3-D2 C.2-D1-C.3-D10-C.3-
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	359 D9 C.2-D1-C.3-D2-C.3-D3 C.2-D1-C.3-D2-C.ar-D3 C.2-D1-C.3-D3-C.3-D4 C.2
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	360 -D1-C.3-D3-N.ar-D4 C.2-D1-C.3-D3-O.3-D2 C.2-D1-C.3-D4-C.3-D5 C.2-D1-C.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	361 3-D5-C.3-D6 C.2-D1-C.3-D5-O.3-D4 C.2-D1-C.3-D6-C.3-D7 C.2-D1-C.3-D7...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	362
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	363 FingerprintsVector;TopologicalPharmacophoreAtomPairs:ArbitrarySize:Min
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	364 Distance1:MaxDistance10;54;NumericalValues;IDsAndValuesString;H-D1-H H
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	365 -D1-NI HBA-D1-NI HBD-D1-NI H-D2-H H-D2-HBA H-D2-HBD HBA-D2-HBA HBA-D2-
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	366 HBD H-D3-H H-D3-HBA H-D3-HBD H-D3-NI HBA-D3-NI HBD-D3-NI H-D4-H H-D4-H
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	367 BA H-D4-HBD HBA-D4-HBA HBA-D4-HBD HBD-D4-HBD H-D5-H H-D5-HBA H-D5-...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	368 18 1 2 1 22 12 8 1 2 18 6 3 1 1 1 22 13 6 5 7 2 28 9 5 1 1 1 36 16 10
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	369 3 4 1 37 10 8 1 35 10 9 3 3 1 28 7 7 4 18 16 12 5 1 2 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	370
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	371 FingerprintsVector;TopologicalPharmacophoreAtomPairs:FixedSize:MinDist
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	372 ance1:MaxDistance10;150;OrderedNumericalValues;ValuesString;18 0 0 1 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	373 0 0 2 0 0 1 0 0 0 0 22 12 8 0 0 1 2 0 0 0 0 0 0 0 0 18 6 3 1 0 0 0 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	374 0 0 1 0 0 0 0 22 13 6 0 0 5 7 0 0 2 0 0 0 0 0 28 9 5 1 0 0 0 1 0 0 1 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	375 0 0 0 36 16 10 0 0 3 4 0 0 1 0 0 0 0 0 37 10 8 0 0 0 0 1 0 0 0 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	376 0 35 10 9 0 0 3 3 0 0 1 0 0 0 0 0 28 7 7 4 0 0 0 0 0 0 0 0 0 0 0 18...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	377
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	378 FingerprintsVector;TopologicalPharmacophoreAtomTriplets:ArbitrarySize:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	379 MinDistance1:MaxDistance10;696;NumericalValues;IDsAndValuesString;Ar1-
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	380 Ar1-Ar1 Ar1-Ar1-H1 Ar1-Ar1-HBA1 Ar1-Ar1-HBD1 Ar1-H1-H1 Ar1-H1-HBA1 Ar1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	381 -H1-HBD1 Ar1-HBA1-HBD1 H1-H1-H1 H1-H1-HBA1 H1-H1-HBD1 H1-HBA1-HBA1 H1-
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	382 HBA1-HBD1 H1-HBA1-NI1 H1-HBD1-NI1 HBA1-HBA1-NI1 HBA1-HBD1-NI1 Ar1-...;
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	383 46 106 8 3 83 11 4 1 21 5 3 1 2 2 1 1 1 100 101 18 11 145 132 26 14 23
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	384 28 3 3 5 4 61 45 10 4 16 20 7 5 1 3 4 5 3 1 1 1 1 5 4 2 1 2 2 2 1 1 1
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	385 119 123 24 15 185 202 41 25 22 17 3 5 85 95 18 11 23 17 3 1 1 6 4 ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	386
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	387 FingerprintsVector;TopologicalPharmacophoreAtomTriplets:FixedSize:MinD
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	388 istance1:MaxDistance10;2692;OrderedNumericalValues;ValuesString;46 106
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	389 8 3 0 0 83 11 4 0 0 0 1 0 0 0 0 0 0 0 0 21 5 3 0 0 1 2 2 0 0 1 0 0 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	390 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 100 101 18 11 0 0 145 132 26
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	391 14 0 0 23 28 3 3 0 0 5 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 61 45 10 4 0
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	392 0 16 20 7 5 1 0 3 4 5 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 5 ...
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	393
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	394 OPTIONS
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	395 --alpha number
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	396 Value of alpha parameter for calculating Tversky similarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	397 coefficient specified for -b, --BitVectorComparisonMode option. It
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	398 corresponds to weights assigned for bits set to "1" in a pair of
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	399 fingerprint bit-vectors during the calculation of similarity
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	400 coefficient. Possible values: 0 to 1. Default value: <0.5>.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	401
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	402 --beta number
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	403 Value of beta parameter for calculating WeightedTanimoto and
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	404 WeightedTversky similarity coefficients specified for -b,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	405 --BitVectorComparisonMode option. It is used to weight the
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	406 contributions of bits set to "0" during the calculation of
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	407 similarity coefficients. Possible values: 0 to 1. Default value of
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	408 <1> makes WeightedTanimoto and WeightedTversky equivalent to
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	409 Tanimoto and Tversky.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	410
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	411 -b, --BitVectorComparisonMode *TanimotoSimilarity \| TverskySimilarity \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	412 ...*
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	413 Specify what similarity coefficient to use for calculating
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	414 similarity between fingerprints bit-vector string data values in
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	415 ReferenceFingerprintsFile and DatabaseFingerprintsFile during
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	416 similarity search. Possible values: *TanimotoSimilarity \|
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	417 TverskySimilarity \| .... Default: TanimotoSimilarity*
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	418
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	419 The current release supports the following similarity coefficients:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	420 *BaroniUrbaniSimilarity, BuserSimilarity, CosineSimilarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	421 DiceSimilarity, DennisSimilarity, ForbesSimilarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	422 FossumSimilarity, HamannSimilarity, JacardSimilarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	423 Kulczynski1Similarity, Kulczynski2Similarity, MatchingSimilarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	424 McConnaugheySimilarity, OchiaiSimilarity, PearsonSimilarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	425 RogersTanimotoSimilarity, RussellRaoSimilarity, SimpsonSimilarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	426 SkoalSneath1Similarity, SkoalSneath2Similarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	427 SkoalSneath3Similarity, TanimotoSimilarity, TverskySimilarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	428 YuleSimilarity, WeightedTanimotoSimilarity,
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	429 WeightedTverskySimilarity*. These similarity coefficients are
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	430 described below.
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	431
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	432 For two fingerprint bit-vectors A and B of same size, let:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	433
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	434 Na = Number of bits set to "1" in A
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	435 Nb = Number of bits set to "1" in B
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	436 Nc = Number of bits set to "1" in both A and B
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	437 Nd = Number of bits set to "0" in both A and B
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	438
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	439 Nt = Number of bits set to "1" or "0" in A or B (Size of A or B)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	440 Nt = Na + Nb - Nc + Nd
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	441
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	442 Na - Nc = Number of bits set to "1" in A but not in B
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	443 Nb - Nc = Number of bits set to "1" in B but not in A
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	444
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	445 Then, various similarity coefficients [ Ref. 40 - 42 ] for a pair of
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	446 bit-vectors A and B are defined as follows:
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	447
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	448 BaroniUrbaniSimilarity: ( SQRT( Nc * Nd ) + Nc ) / ( SQRT ( Nc *
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	449 Nd ) + Nc + ( Na - Nc ) + ( Nb - Nc ) ) ( same as Buser )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	450
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	451 BuserSimilarity: ( SQRT ( Nc * Nd ) + Nc ) / ( SQRT ( Nc * Nd ) +
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	452 Nc + ( Na - Nc ) + ( Nb - Nc ) ) ( same as BaroniUrbani )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	453
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	454 CosineSimilarity: Nc / SQRT ( Na * Nb ) (same as Ochiai)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	455
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	456 DiceSimilarity: (2 * Nc) / ( Na + Nb )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	457
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	458 DennisSimilarity: ( Nc * Nd - ( ( Na - Nc ) * ( Nb - Nc ) ) ) /
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	459 SQRT ( Nt * Na * Nb)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	460
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	461 ForbesSimilarity: ( Nt * Nc ) / ( Na * Nb )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	462
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	463 FossumSimilarity: ( Nt * ( ( Nc - 1/2 ) ** 2 ) / ( Na * Nb )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	464
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	465 HamannSimilarity: ( ( Nc + Nd ) - ( Na - Nc ) - ( Nb - Nc ) ) / Nt
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	466
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	467 JaccardSimilarity: Nc / ( ( Na - Nc) + ( Nb - Nc ) + Nc ) = Nc / (
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	468 Na + Nb - Nc ) (same as Tanimoto)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	469
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	470 Kulczynski1Similarity: Nc / ( ( Na - Nc ) + ( Nb - Nc) ) = Nc / (
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	471 Na + Nb - 2Nc )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	472
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	473 Kulczynski2Similarity: ( ( Nc / 2 ) * ( 2 * Nc + ( Na - Nc ) + (
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	474 Nb - Nc) ) ) / ( ( Nc + ( Na - Nc ) ) * ( Nc + ( Nb - Nc ) ) ) = 0.5
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	475 * ( Nc / Na + Nc / Nb )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	476
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	477 MatchingSimilarity: ( Nc + Nd ) / Nt
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	478
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	479 McConnaugheySimilarity: ( Nc ** 2 - ( Na - Nc ) * ( Nb - Nc) ) / (
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	480 Na * Nb )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	481
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	482 OchiaiSimilarity: Nc / SQRT ( Na * Nb ) (same as Cosine)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	483
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	484 PearsonSimilarity: ( ( Nc * Nd ) - ( ( Na - Nc ) * ( Nb - Nc ) ) /
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	485 SQRT ( Na * Nb * ( Na - Nc + Nd ) * ( Nb - Nc + Nd ) )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	486
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	487 RogersTanimotoSimilarity: ( Nc + Nd ) / ( ( Na - Nc) + ( Nb - Nc)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	488 + Nt) = ( Nc + Nd ) / ( Na + Nb - 2Nc + Nt)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	489
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	490 RussellRaoSimilarity: Nc / Nt
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	491
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	492 SimpsonSimilarity: Nc / MIN ( Na, Nb)
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	493
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	494 SkoalSneath1Similarity: Nc / ( Nc + 2 * ( Na - Nc) + 2 * ( Nb -
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	495 Nc) ) = Nc / ( 2 * Na + 2 * Nb - 3 * Nc )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	496
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	497 SkoalSneath2Similarity: ( 2 * Nc + 2 * Nd ) / ( Nc + Nd + Nt )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	498
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	499 SkoalSneath3Similarity: ( Nc + Nd ) / ( ( Na - Nc ) + ( Nb - Nc )
4816e4a8ae95 Uploaded deepakjadmin parents: diff changeset	500 ) = ( Nc + Nd ) / ( Na + Nb - 2 * Nc )

0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1 NAME

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

2 SimilaritySearchingFingerprints.pl - Perform similarity search using

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

3 fingerprints strings data in SD, FP and CSV/TSV text file(s)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

4

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

5 SYNOPSIS

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

6 SimilaritySearchingFingerprints.pl ReferenceFPFile DatabaseFPFile

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

7

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

8 SimilaritySearchingFingerprints.pl [--alpha *number*] [--beta *number*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

9 [-b, --BitVectorComparisonMode *TanimotoSimilarity | TverskySimilarity |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

10 ...*] [--DatabaseColMode *ColNum | ColLabel*] [--DatabaseCompoundIDCol

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

11 *col number | col name*] [--DatabaseCompoundIDPrefix *text*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

12 [--DatabaseCompoundIDField *DataFieldName*] [--DatabaseCompoundIDMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

13 *DataField | MolName | LabelPrefix | MolNameOrLabelPrefix*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

14 [--DatabaseDataCols *"DataColNum1, DataColNum2,... " | DataColLabel1,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

15 DataCoLabel2,... "*] [--DatabaseDataColsMode *All | Specify |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

16 CompoundID*] [--DatabaseDataFields *"FieldLabel1, FieldLabel2,... "*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

17 [--DatabaseDataFieldsMode *All | Common | Specify | CompoundID*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

18 [--DatabaseFingerprintsCol *col number | col name*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

19 [--DatabaseFingerprintsField *FieldLabel*] []--DistanceCutoff *number*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

20 [-d, --detail *InfoLevel*] [-f, --fast] [--FingerprintsMode *AutoDetect

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

21 | FingerprintsBitVectorString | FingerprintsVectorString*] [-g,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

22 --GroupFusionRule *Max, Mean, Median, Min, Sum, Euclidean*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

23 [--GroupFusionApplyCutoff *Yes | No*] [-h, --help] [--InDelim *comma |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

24 semicolon*] [-k, --KNN *all | number*] [-m, --mode *IndividualReference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

25 | MultipleReferences*] [-n, --NumOfSimilarMolecules *number*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

26 [--OutDelim *comma | tab | semicolon*] [--output *SD | text | both*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

27 [-o, --overwrite] [-p, --PercentSimilarMolecules *number*] [--precision

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

28 *number*] [-q, --quote *Yes | No*] [--ReferenceColMode *ColNum |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

29 ColLabel*] [--ReferenceCompoundIDCol *col number | col name*]

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

30 [--ReferenceCompoundIDPrefix *text*] [--ReferenceCompoundIDField

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

31 *DataFieldName*] [--ReferenceCompoundIDMode *DataField | MolName |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

32 LabelPrefix | MolNameOrLabelPrefix*] [--ReferenceFingerprintsCol *col

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

33 number | col name*] [--ReferenceFingerprintsField *FieldLabel*] [-r,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

34 --root *RootName*] [-s, --SearchMode *SimilaritySearch |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

35 DissimilaritySearch*] [--SimilarCountMode *NumOfSimilar |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

36 PercentSimilar*] [--SimilarityCutoff *number*] [-v,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

37 --VectorComparisonMode *TanimotoSimilairy | ... | ManhattanDistance |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

38 ...*] [--VectorComparisonFormulism *AlgebraicForm | BinaryForm |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

39 SetTheoreticForm*] [-w, --WorkingDir dirname] ReferenceFingerprintsFile

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

40 DatabaseFingerprintsFile

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

41

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

42 DESCRIPTION

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

43 Perform molecular similarity search [ Ref 94-113 ] using fingerprint

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

44 bit-vector or vector strings data in *SD, FP, or CSV/TSV text* files

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

45 corresponding to *ReferenceFingerprintsFile* and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

46 *DatabaseFingerprintsFile*, and generate SD and CSV/TSV text file(s)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

47 containing database molecules which are similar to reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

48 molecule(s). The reference molecules are also referred to as query or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

49 seed molecules and database molecules as target molecules in the

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

50 literature.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

51

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

52 The current release of MayaChemTools supports two types of similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

53 search modes: *IndividualReference or MultipleReferences*. For default

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

54 value of *MultipleReferences* for -m, --mode option, reference molecules

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

55 are considered as a set and -g, --GroupFusionRule is used to calculate

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

56 similarity of a database molecule against reference molecules set. The

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

57 group fusion rule is also referred to as data fusion of consensus

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

58 scoring in the literature. However, for *IndividualReference* value of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

59 -m, --mode option, reference molecules are treated as individual

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

60 molecules and each reference molecule is compared against a database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

61 molecule by itself to identify similar molecules.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

62

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

63 The molecular dissimilarity search can also be performed using

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

64 *DissimilaritySearch* value for -s, --SearchMode option. During

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

65 dissimilarity search or usage of distance comparison coefficient in

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

66 similarity similarity search, the meaning of fingerprints comparison

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

67 value is automatically reversed as shown below:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

68

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

69 SeachMode ComparisonCoefficient ResultsSort ComparisonValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

70

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

71 Similarity SimilarityCoefficient Descending Higher value imples

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

72 high similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

73 Similarity DistanceCoefficient Ascending Lower value implies

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

74 high similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

75

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

76 Dissimilarity SimilarityCoefficient Ascending Lower value implies

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

77 high dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

78 Dissimilarity DistanceCoefficient Descending Higher value implies

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

79 high dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

80

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

81 During *IndividualReference* value of -m, --Mode option for similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

82 search, fingerprints bit-vector or vector string of each reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

83 molecule is compared with database molecules using specified similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

84 or distance coefficients to identify most similar molecules for each

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

85 reference molecule. Based on value of --SimilarCountMode, up to --n,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

86 --NumOfSimilarMolecules or -p, --PercentSimilarMolecules at specified

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

87 --SimilarityCutoff or --DistanceCutoff are identified for each reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

88 molecule.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

89

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

90 During *MultipleReferences* value -m, --mode option for similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

91 search, all reference molecules are considered as a set and -g,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

92 --GroupFusionRule is used to calculate similarity of a database molecule

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

93 against reference molecules set either using all reference molecules or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

94 number of k-nearest neighbors (k-NN) to a database molecule specified

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

95 using -k, --kNN. The fingerprints bit-vector or vector string of each

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

96 reference molecule in a set is compared with a database molecule using a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

97 similarity or distance coefficient specified via -b,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

98 --BitVectorComparisonMode or -v, --VectorComparisonMode. The reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

99 molecules whose comparison values with a database molecule fall outside

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

100 specified --SimilarityCutoff or --DistanceCutoff are ignored during

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

101 *Yes* value of --GroupFusionApplyCutoff. The specified -g,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

102 --GroupFusionRule is applied to -k, --kNN reference molecules to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

103 calculate final similarity value between a database molecule and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

104 reference molecules set.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

105

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

106 The input fingerprints *SD, FP, or Text (CSV/TSV)* files for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

107 *ReferenceFingerprintsFile* and *DatabaseTextFile* must contain valid

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

108 fingerprint bit-vector or vector strings data corresponding to same type

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

109 of fingerprints.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

110

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

111 The valid fingerprints *SDFile* extensions are *.sdf* and *.sd*. The

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

112 valid fingerprints *FPFile* extensions are *.fpf* and *.fp*. The valid

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

113 fingerprints *TextFile (CSV/TSV)* extensions are *.csv* and *.tsv* for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

114 comma/semicolon and tab delimited text files respectively. The --indelim

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

115 option determines the format of *TextFile*. Any file which doesn't

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

116 correspond to the format indicated by --indelim option is ignored.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

117

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

118 Example of *FP* file containing fingerprints bit-vector string data:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

119

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

120 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

121 # Package = MayaChemTools 7.4

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

122 # ReleaseDate = Oct 21, 2010

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

123 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

124 # TimeStamp = Mon Mar 7 15:14:01 2011

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

125 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

126 # FingerprintsStringType = FingerprintsBitVector

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

127 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

128 # Description = PathLengthBits:AtomicInvariantsAtomTypes:MinLength1:...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

129 # Size = 1024

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

130 # BitStringFormat = HexadecimalString

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

131 # BitsOrder = Ascending

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

132 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

133 Cmpd1 9c8460989ec8a49913991a6603130b0a19e8051c89184414953800cc21510...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

134 Cmpd2 000000249400840040100042011001001980410c000000001010088001120...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

135 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

136 ... ..

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

137

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

138 Example of *FP* file containing fingerprints vector string data:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

139

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

140 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

141 # Package = MayaChemTools 7.4

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

142 # ReleaseDate = Oct 21, 2010

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

143 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

144 # TimeStamp = Mon Mar 7 15:14:01 2011

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

145 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

146 # FingerprintsStringType = FingerprintsVector

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

147 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

148 # Description = PathLengthBits:AtomicInvariantsAtomTypes:MinLength1:...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

149 # VectorStringFormat = IDsAndValuesString

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

150 # VectorValuesType = NumericalValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

151 #

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

152 Cmpd1 338;C F N O C:C C:N C=O CC CF CN CO C:C:C C:C:N C:CC C:CF C:CN C:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

153 N:C C:NC CC:N CC=O CCC CCN CCO CNC NC=O O=CO C:C:C:C C:C:C:N C:C:CC...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

154 33 1 2 5 21 2 2 12 1 3 3 20 2 10 2 2 1 2 2 2 8 2 5 1 1 1 19 2 8 2 2 2 2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

155 6 2 2 2 2 2 2 2 2 3 2 2 1 4 1 5 1 1 18 6 2 2 1 2 10 2 1 2 1 2 2 2 2 ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

156 Cmpd2 103;C N O C=N C=O CC CN CO CC=O CCC CCN CCO CNC N=CN NC=O NCN O=C

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

157 O C CC=O CCCC CCCN CCCO CCNC CNC=N CNC=O CNCN CCCC=O CCCCC CCCCN CC...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

158 15 4 4 1 2 13 5 2 2 15 5 3 2 2 1 1 1 2 17 7 6 5 1 1 1 2 15 8 5 7 2 2 2 2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

159 1 2 1 1 3 15 7 6 8 3 4 4 3 2 2 1 2 3 14 2 4 7 4 4 4 4 1 1 1 2 1 1 1 ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

160 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

161 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

162

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

163 Example of *SD* file containing fingerprints bit-vector string data:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

164

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

165 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

166 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

167 $$$$

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

168 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

169 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

170 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

171 41 44 0 0 0 0 0 0 0 0999 V2000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

172 -3.3652 1.4499 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

173 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

174 2 3 1 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

175 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

176 M END

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

177 > <CmpdID>

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

178 Cmpd1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

179

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

180 > <PathLengthFingerprints>

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

181 FingerprintsBitVector;PathLengthBits:AtomicInvariantsAtomTypes:MinLengt

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

182 h1:MaxLength8;1024;HexadecimalString;Ascending;9c8460989ec8a49913991a66

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

183 03130b0a19e8051c89184414953800cc2151082844a201042800130860308e8204d4028

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

184 00831048940e44281c00060449a5000ac80c894114e006321264401600846c050164462

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

185 08190410805000304a10205b0100e04c0038ba0fad0209c0ca8b1200012268b61c0026a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

186 aa0660a11014a011d46

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

187

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

188 $$$$

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

189 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

190 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

191

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

192 Example of CSV *TextFile* containing fingerprints bit-vector string

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

193 data:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

194

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

195 "CompoundID","PathLengthFingerprints"

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

196 "Cmpd1","FingerprintsBitVector;PathLengthBits:AtomicInvariantsAtomTypes

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

197 :MinLength1:MaxLength8;1024;HexadecimalString;Ascending;9c8460989ec8a4

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

198 9913991a6603130b0a19e8051c89184414953800cc2151082844a20104280013086030

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

199 8e8204d402800831048940e44281c00060449a5000ac80c894114e006321264401..."

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

200 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

201 ... ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

202

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

203 The current release of MayaChemTools supports the following types of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

204 fingerprint bit-vector and vector strings:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

205

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

206 FingerprintsVector;AtomNeighborhoods:AtomicInvariantsAtomTypes:MinRadi

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

207 us0:MaxRadius2;41;AlphaNumericalValues;ValuesString;NR0-C.X1.BO1.H3-AT

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

208 C1:NR1-C.X3.BO3.H1-ATC1:NR2-C.X1.BO1.H3-ATC1:NR2-C.X3.BO4-ATC1 NR0-C.X

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

209 1.BO1.H3-ATC1:NR1-C.X3.BO3.H1-ATC1:NR2-C.X1.BO1.H3-ATC1:NR2-C.X3.BO4-A

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

210 TC1 NR0-C.X2.BO2.H2-ATC1:NR1-C.X2.BO2.H2-ATC1:NR1-C.X3.BO3.H1-ATC1:NR2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

211 -C.X2.BO2.H2-ATC1:NR2-N.X3.BO3-ATC1:NR2-O.X1.BO1.H1-ATC1 NR0-C.X2.B...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

212

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

213 FingerprintsVector;AtomTypesCount:AtomicInvariantsAtomTypes:ArbitraryS

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

214 ize;10;NumericalValues;IDsAndValuesString;C.X1.BO1.H3 C.X2.BO2.H2 C.X2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

215 .BO3.H1 C.X3.BO3.H1 C.X3.BO4 F.X1.BO1 N.X2.BO2.H1 N.X3.BO3 O.X1.BO1.H1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

216 O.X1.BO2;2 4 14 3 10 1 1 1 3 2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

217

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

218 FingerprintsVector;AtomTypesCount:SLogPAtomTypes:ArbitrarySize;16;Nume

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

219 ricalValues;IDsAndValuesString;C1 C10 C11 C14 C18 C20 C21 C22 C5 CS F

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

220 N11 N4 O10 O2 O9;5 1 1 1 14 4 2 1 2 2 1 1 1 1 3 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

221

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

222 FingerprintsVector;AtomTypesCount:SLogPAtomTypes:FixedSize;67;OrderedN

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

223 umericalValues;IDsAndValuesString;C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

224 12 C13 C14 C15 C16 C17 C18 C19 C20 C21 C22 C23 C24 C25 C26 C27 CS N1 N

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

225 2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 N13 N14 NS O1 O2 O3 O4 O5 O6 O7 O8

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

226 O9 O10 O11 O12 OS F Cl Br I Hal P S1 S2 S3 Me1 Me2;5 0 0 0 2 0 0 0 0 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

227 1 0 0 1 0 0 0 14 0 4 2 1 0 0 0 0 0 2 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

228

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

229 FingerprintsVector;EStateIndicies:ArbitrarySize;11;NumericalValues;IDs

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

230 AndValuesString;SaaCH SaasC SaasN SdO SdssC SsCH3 SsF SsOH SssCH2 SssN

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

231 H SsssCH;24.778 4.387 1.993 25.023 -1.435 3.975 14.006 29.759 -0.073 3

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

232 .024 -2.270

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

233

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

234 FingerprintsVector;EStateIndicies:FixedSize;87;OrderedNumericalValues;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

235 ValuesString;0 0 0 0 0 0 0 3.975 0 -0.073 0 0 24.778 -2.270 0 0 -1.435

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

236 4.387 0 0 0 0 0 0 3.024 0 0 0 0 0 0 0 1.993 0 29.759 25.023 0 0 0 0 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

237 4.006 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

238 0 0 0 0 0 0 0 0 0 0 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

239

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

240 FingerprintsVector;ExtendedConnectivity:AtomicInvariantsAtomTypes:Radi

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

241 us2;60;AlphaNumericalValues;ValuesString;73555770 333564680 352413391

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

242 666191900 1001270906 1371674323 1481469939 1977749791 2006158649 21414

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

243 08799 49532520 64643108 79385615 96062769 273726379 564565671 85514103

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

244 5 906706094 988546669 1018231313 1032696425 1197507444 1331250018 1338

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

245 532734 1455473691 1607485225 1609687129 1631614296 1670251330 17303...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

246

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

247 FingerprintsVector;ExtendedConnectivityCount:AtomicInvariantsAtomTypes

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

248 :Radius2;60;NumericalValues;IDsAndValuesString;73555770 333564680 3524

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

249 13391 666191900 1001270906 1371674323 1481469939 1977749791 2006158649

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

250 2141408799 49532520 64643108 79385615 96062769 273726379 564565671...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

251 3 2 1 1 14 1 2 10 4 3 1 1 1 1 2 1 2 1 1 1 2 3 1 1 2 1 3 3 8 2 2 2 6 2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

252 1 2 1 1 2 1 1 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 1 2 1 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

253

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

254 FingerprintsBitVector;ExtendedConnectivityBits:AtomicInvariantsAtomTyp

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

255 es:Radius2;1024;BinaryString;Ascending;0000000000000000000000000000100

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

256 0000000001010000000110000011000000000000100000000000000000000000100001

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

257 1000000110000000000000000000000000010011000000000000000000000000010000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

258 0000000000000000000000000010000000000000000001000000000000000000000000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

259 0000000000010000100001000000000000101000000000000000100000000000000...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

260

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

261 FingerprintsVector;ExtendedConnectivity:FunctionalClassAtomTypes:Radiu

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

262 s2;57;AlphaNumericalValues;ValuesString;24769214 508787397 850393286 8

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

263 62102353 981185303 1231636850 1649386610 1941540674 263599683 32920567

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

264 1 571109041 639579325 683993318 723853089 810600886 885767127 90326012

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

265 7 958841485 981022393 1126908698 1152248391 1317567065 1421489994 1455

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

266 632544 1557272891 1826413669 1983319256 2015750777 2029559552 20404...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

267

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

268 FingerprintsVector;ExtendedConnectivity:EStateAtomTypes:Radius2;62;Alp

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

269 haNumericalValues;ValuesString;25189973 528584866 662581668 671034184

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

270 926543080 1347067490 1738510057 1759600920 2034425745 2097234755 21450

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

271 44754 96779665 180364292 341712110 345278822 386540408 387387308 50430

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

272 1706 617094135 771528807 957666640 997798220 1158349170 1291258082 134

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

273 1138533 1395329837 1420277211 1479584608 1486476397 1487556246 1566...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

274

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

275 FingerprintsBitVector;MACCSKeyBits;166;BinaryString;Ascending;00000000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

276 0000000000000000000000000000000001001000010010000000010010000000011100

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

277 0100101010111100011011000100110110000011011110100110111111111111011111

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

278 11111111111110111000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

279

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

280 FingerprintsBitVector;MACCSKeyBits;322;BinaryString;Ascending;11101011

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

281 1110011111100101111111000111101100110000000000000011100010000000000000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

282 0000000000000000000000000000000000000000000000101000000000000000000000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

283 0000000000000000000000000000000000000000000000000000000000000000000000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

284 0000000000000000000000000000000000000011000000000000000000000000000000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

285 0000000000000000000000000000000000000000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

286

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

287 FingerprintsVector;MACCSKeyCount;166;OrderedNumericalValues;ValuesStri

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

288 ng;0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

289 0 0 0 0 0 0 0 1 0 0 3 0 0 0 0 4 0 0 2 0 0 0 0 0 0 0 0 2 0 0 2 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

290 0 0 0 0 1 1 8 0 0 0 1 0 0 1 0 1 0 1 0 3 1 3 1 0 0 0 1 2 0 11 1 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

291 5 0 0 1 2 0 1 1 0 0 0 0 0 1 1 0 1 1 1 1 0 4 0 0 1 1 0 4 6 1 1 1 2 1 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

292 3 5 2 2 0 5 3 5 1 1 2 5 1 2 1 2 4 8 3 5 5 2 2 0 3 5 4 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

293

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

294 FingerprintsVector;MACCSKeyCount;322;OrderedNumericalValues;ValuesStri

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

295 ng;14 8 2 0 2 0 4 4 2 1 4 0 0 2 5 10 5 2 1 0 0 2 0 5 13 3 28 5 5 3 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

296 0 4 2 1 1 0 1 1 0 0 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 5 3 0 0 0 1 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

297 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

298 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 2 0 0 0 0 0 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

299 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

300

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

301 FingerprintsBitVector;PathLengthBits:AtomicInvariantsAtomTypes:MinLeng

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

302 th1:MaxLength8;1024;BinaryString;Ascending;001000010011010101011000110

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

303 0100010101011000101001011100110001000010001001101000001001001001001000

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

304 0010110100000111001001000001001010100100100000000011000000101001011100

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

305 0010000001000101010100000100111100110111011011011000000010110111001101

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

306 0101100011000000010001000011000010100011101100001000001000100000000...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

307

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

308 FingerprintsVector;PathLengthCount:AtomicInvariantsAtomTypes:MinLength

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

309 1:MaxLength8;432;NumericalValues;IDsAndValuesPairsString;C.X1.BO1.H3 2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

310 C.X2.BO2.H2 4 C.X2.BO3.H1 14 C.X3.BO3.H1 3 C.X3.BO4 10 F.X1.BO1 1 N.X

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

311 2.BO2.H1 1 N.X3.BO3 1 O.X1.BO1.H1 3 O.X1.BO2 2 C.X1.BO1.H3C.X3.BO3.H1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

312 2 C.X2.BO2.H2C.X2.BO2.H2 1 C.X2.BO2.H2C.X3.BO3.H1 4 C.X2.BO2.H2C.X3.BO

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

313 4 1 C.X2.BO2.H2N.X3.BO3 1 C.X2.BO3.H1:C.X2.BO3.H1 10 C.X2.BO3.H1:C....

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

314

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

315 FingerprintsVector;PathLengthCount:MMFF94AtomTypes:MinLength1:MaxLengt

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

316 h8;463;NumericalValues;IDsAndValuesPairsString;C5A 2 C5B 2 C=ON 1 CB 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

317 8 COO 1 CR 9 F 1 N5 1 NC=O 1 O=CN 1 O=CO 1 OC=O 1 OR 2 C5A:C5B 2 C5A:N

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

318 5 2 C5ACB 1 C5ACR 1 C5B:C5B 1 C5BC=ON 1 C5BCB 1 C=ON=O=CN 1 C=ONNC=O 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

319 CB:CB 18 CBF 1 CBNC=O 1 COO=O=CO 1 COOCR 1 COOOC=O 1 CRCR 7 CRN5 1 CR

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

320 OR 2 C5A:C5B:C5B 2 C5A:C5BC=ON 1 C5A:C5BCB 1 C5A:N5:C5A 1 C5A:N5CR ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

321

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

322 FingerprintsVector;TopologicalAtomPairs:AtomicInvariantsAtomTypes:MinD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

323 istance1:MaxDistance10;223;NumericalValues;IDsAndValuesString;C.X1.BO1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

324 .H3-D1-C.X3.BO3.H1 C.X2.BO2.H2-D1-C.X2.BO2.H2 C.X2.BO2.H2-D1-C.X3.BO3.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

325 H1 C.X2.BO2.H2-D1-C.X3.BO4 C.X2.BO2.H2-D1-N.X3.BO3 C.X2.BO3.H1-D1-...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

326 2 1 4 1 1 10 8 1 2 6 1 2 2 1 2 1 2 2 1 2 1 5 1 10 12 2 2 1 2 1 9 1 3 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

327 1 1 2 2 1 3 6 1 6 14 2 2 2 3 1 3 1 8 2 2 1 3 2 6 1 2 2 5 1 3 1 23 1...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

328

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

329 FingerprintsVector;TopologicalAtomPairs:FunctionalClassAtomTypes:MinDi

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

330 stance1:MaxDistance10;144;NumericalValues;IDsAndValuesString;Ar-D1-Ar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

331 Ar-D1-Ar.HBA Ar-D1-HBD Ar-D1-Hal Ar-D1-None Ar.HBA-D1-None HBA-D1-NI H

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

332 BA-D1-None HBA.HBD-D1-NI HBA.HBD-D1-None HBD-D1-None NI-D1-None No...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

333 23 2 1 1 2 1 1 1 1 2 1 1 7 28 3 1 3 2 8 2 1 1 1 5 1 5 24 3 3 4 2 13 4

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

334 1 1 4 1 5 22 4 4 3 1 19 1 1 1 1 1 2 2 3 1 1 8 25 4 5 2 3 1 26 1 4 1 ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

335

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

336 FingerprintsVector;TopologicalAtomTorsions:AtomicInvariantsAtomTypes;3

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

337 3;NumericalValues;IDsAndValuesString;C.X1.BO1.H3-C.X3.BO3.H1-C.X3.BO4-

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

338 C.X3.BO4 C.X1.BO1.H3-C.X3.BO3.H1-C.X3.BO4-N.X3.BO3 C.X2.BO2.H2-C.X2.BO

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

339 2.H2-C.X3.BO3.H1-C.X2.BO2.H2 C.X2.BO2.H2-C.X2.BO2.H2-C.X3.BO3.H1-O...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

340 2 2 1 1 2 2 1 1 3 4 4 8 4 2 2 6 2 2 1 2 1 1 2 1 1 2 6 2 4 2 1 3 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

341

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

342 FingerprintsVector;TopologicalAtomTorsions:EStateAtomTypes;36;Numerica

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

343 lValues;IDsAndValuesString;aaCH-aaCH-aaCH-aaCH aaCH-aaCH-aaCH-aasC aaC

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

344 H-aaCH-aasC-aaCH aaCH-aaCH-aasC-aasC aaCH-aaCH-aasC-sF aaCH-aaCH-aasC-

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

345 ssNH aaCH-aasC-aasC-aasC aaCH-aasC-aasC-aasN aaCH-aasC-ssNH-dssC a...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

346 4 4 8 4 2 2 6 2 2 2 4 3 2 1 3 3 2 2 2 1 2 1 1 1 2 1 1 1 1 1 1 1 2 1 1 2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

347

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

348 FingerprintsVector;TopologicalAtomTriplets:AtomicInvariantsAtomTypes:M

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

349 inDistance1:MaxDistance10;3096;NumericalValues;IDsAndValuesString;C.X1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

350 .BO1.H3-D1-C.X1.BO1.H3-D1-C.X3.BO3.H1-D2 C.X1.BO1.H3-D1-C.X2.BO2.H2-D1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

351 0-C.X3.BO4-D9 C.X1.BO1.H3-D1-C.X2.BO2.H2-D3-N.X3.BO3-D4 C.X1.BO1.H3-D1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

352 -C.X2.BO2.H2-D4-C.X2.BO2.H2-D5 C.X1.BO1.H3-D1-C.X2.BO2.H2-D6-C.X3....;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

353 1 2 2 2 2 2 2 2 8 8 4 8 4 4 2 2 2 2 4 2 2 2 4 2 2 2 2 1 2 2 4 4 4 2 2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

354 2 4 4 4 8 4 4 2 4 4 4 2 4 4 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 8...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

355

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

356 FingerprintsVector;TopologicalAtomTriplets:SYBYLAtomTypes:MinDistance1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

357 :MaxDistance10;2332;NumericalValues;IDsAndValuesString;C.2-D1-C.2-D9-C

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

358 .3-D10 C.2-D1-C.2-D9-C.ar-D10 C.2-D1-C.3-D1-C.3-D2 C.2-D1-C.3-D10-C.3-

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

359 D9 C.2-D1-C.3-D2-C.3-D3 C.2-D1-C.3-D2-C.ar-D3 C.2-D1-C.3-D3-C.3-D4 C.2

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

360 -D1-C.3-D3-N.ar-D4 C.2-D1-C.3-D3-O.3-D2 C.2-D1-C.3-D4-C.3-D5 C.2-D1-C.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

361 3-D5-C.3-D6 C.2-D1-C.3-D5-O.3-D4 C.2-D1-C.3-D6-C.3-D7 C.2-D1-C.3-D7...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

362

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

363 FingerprintsVector;TopologicalPharmacophoreAtomPairs:ArbitrarySize:Min

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

364 Distance1:MaxDistance10;54;NumericalValues;IDsAndValuesString;H-D1-H H

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

365 -D1-NI HBA-D1-NI HBD-D1-NI H-D2-H H-D2-HBA H-D2-HBD HBA-D2-HBA HBA-D2-

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

366 HBD H-D3-H H-D3-HBA H-D3-HBD H-D3-NI HBA-D3-NI HBD-D3-NI H-D4-H H-D4-H

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

367 BA H-D4-HBD HBA-D4-HBA HBA-D4-HBD HBD-D4-HBD H-D5-H H-D5-HBA H-D5-...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

368 18 1 2 1 22 12 8 1 2 18 6 3 1 1 1 22 13 6 5 7 2 28 9 5 1 1 1 36 16 10

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

369 3 4 1 37 10 8 1 35 10 9 3 3 1 28 7 7 4 18 16 12 5 1 2 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

370

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

371 FingerprintsVector;TopologicalPharmacophoreAtomPairs:FixedSize:MinDist

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

372 ance1:MaxDistance10;150;OrderedNumericalValues;ValuesString;18 0 0 1 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

373 0 0 2 0 0 1 0 0 0 0 22 12 8 0 0 1 2 0 0 0 0 0 0 0 0 18 6 3 1 0 0 0 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

374 0 0 1 0 0 0 0 22 13 6 0 0 5 7 0 0 2 0 0 0 0 0 28 9 5 1 0 0 0 1 0 0 1 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

375 0 0 0 36 16 10 0 0 3 4 0 0 1 0 0 0 0 0 37 10 8 0 0 0 0 1 0 0 0 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

376 0 35 10 9 0 0 3 3 0 0 1 0 0 0 0 0 28 7 7 4 0 0 0 0 0 0 0 0 0 0 0 18...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

377

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

378 FingerprintsVector;TopologicalPharmacophoreAtomTriplets:ArbitrarySize:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

379 MinDistance1:MaxDistance10;696;NumericalValues;IDsAndValuesString;Ar1-

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

380 Ar1-Ar1 Ar1-Ar1-H1 Ar1-Ar1-HBA1 Ar1-Ar1-HBD1 Ar1-H1-H1 Ar1-H1-HBA1 Ar1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

381 -H1-HBD1 Ar1-HBA1-HBD1 H1-H1-H1 H1-H1-HBA1 H1-H1-HBD1 H1-HBA1-HBA1 H1-

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

382 HBA1-HBD1 H1-HBA1-NI1 H1-HBD1-NI1 HBA1-HBA1-NI1 HBA1-HBD1-NI1 Ar1-...;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

383 46 106 8 3 83 11 4 1 21 5 3 1 2 2 1 1 1 100 101 18 11 145 132 26 14 23

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

384 28 3 3 5 4 61 45 10 4 16 20 7 5 1 3 4 5 3 1 1 1 1 5 4 2 1 2 2 2 1 1 1

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

385 119 123 24 15 185 202 41 25 22 17 3 5 85 95 18 11 23 17 3 1 1 6 4 ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

386

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

387 FingerprintsVector;TopologicalPharmacophoreAtomTriplets:FixedSize:MinD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

388 istance1:MaxDistance10;2692;OrderedNumericalValues;ValuesString;46 106

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

389 8 3 0 0 83 11 4 0 0 0 1 0 0 0 0 0 0 0 0 21 5 3 0 0 1 2 2 0 0 1 0 0 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

390 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 100 101 18 11 0 0 145 132 26

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

391 14 0 0 23 28 3 3 0 0 5 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 61 45 10 4 0

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

392 0 16 20 7 5 1 0 3 4 5 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 5 ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

393

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

394 OPTIONS

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

395 --alpha *number*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

396 Value of alpha parameter for calculating *Tversky* similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

397 coefficient specified for -b, --BitVectorComparisonMode option. It

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

398 corresponds to weights assigned for bits set to "1" in a pair of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

399 fingerprint bit-vectors during the calculation of similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

400 coefficient. Possible values: *0 to 1*. Default value: <0.5>.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

401

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

402 --beta *number*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

403 Value of beta parameter for calculating *WeightedTanimoto* and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

404 *WeightedTversky* similarity coefficients specified for -b,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

405 --BitVectorComparisonMode option. It is used to weight the

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

406 contributions of bits set to "0" during the calculation of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

407 similarity coefficients. Possible values: *0 to 1*. Default value of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

408 <1> makes *WeightedTanimoto* and *WeightedTversky* equivalent to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

409 *Tanimoto* and *Tversky*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

410

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

411 -b, --BitVectorComparisonMode *TanimotoSimilarity | TverskySimilarity |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

412 ...*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

413 Specify what similarity coefficient to use for calculating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

414 similarity between fingerprints bit-vector string data values in

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

415 *ReferenceFingerprintsFile* and *DatabaseFingerprintsFile* during

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

416 similarity search. Possible values: *TanimotoSimilarity |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

417 TverskySimilarity | ...*. Default: *TanimotoSimilarity*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

418

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

419 The current release supports the following similarity coefficients:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

420 *BaroniUrbaniSimilarity, BuserSimilarity, CosineSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

421 DiceSimilarity, DennisSimilarity, ForbesSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

422 FossumSimilarity, HamannSimilarity, JacardSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

423 Kulczynski1Similarity, Kulczynski2Similarity, MatchingSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

424 McConnaugheySimilarity, OchiaiSimilarity, PearsonSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

425 RogersTanimotoSimilarity, RussellRaoSimilarity, SimpsonSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

426 SkoalSneath1Similarity, SkoalSneath2Similarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

427 SkoalSneath3Similarity, TanimotoSimilarity, TverskySimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

428 YuleSimilarity, WeightedTanimotoSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

429 WeightedTverskySimilarity*. These similarity coefficients are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

430 described below.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

431

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

432 For two fingerprint bit-vectors A and B of same size, let:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

433

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

434 Na = Number of bits set to "1" in A

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

435 Nb = Number of bits set to "1" in B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

436 Nc = Number of bits set to "1" in both A and B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

437 Nd = Number of bits set to "0" in both A and B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

438

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

439 Nt = Number of bits set to "1" or "0" in A or B (Size of A or B)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

440 Nt = Na + Nb - Nc + Nd

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

441

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

442 Na - Nc = Number of bits set to "1" in A but not in B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

443 Nb - Nc = Number of bits set to "1" in B but not in A

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

444

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

445 Then, various similarity coefficients [ Ref. 40 - 42 ] for a pair of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

446 bit-vectors A and B are defined as follows:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

447

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

448 *BaroniUrbaniSimilarity*: ( SQRT( Nc * Nd ) + Nc ) / ( SQRT ( Nc *

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

449 Nd ) + Nc + ( Na - Nc ) + ( Nb - Nc ) ) ( same as Buser )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

450

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

451 *BuserSimilarity*: ( SQRT ( Nc * Nd ) + Nc ) / ( SQRT ( Nc * Nd ) +

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

452 Nc + ( Na - Nc ) + ( Nb - Nc ) ) ( same as BaroniUrbani )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

453

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

454 *CosineSimilarity*: Nc / SQRT ( Na * Nb ) (same as Ochiai)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

455

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

456 *DiceSimilarity*: (2 * Nc) / ( Na + Nb )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

457

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

458 *DennisSimilarity*: ( Nc * Nd - ( ( Na - Nc ) * ( Nb - Nc ) ) ) /

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

459 SQRT ( Nt * Na * Nb)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

460

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

461 *ForbesSimilarity*: ( Nt * Nc ) / ( Na * Nb )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

462

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

463 *FossumSimilarity*: ( Nt * ( ( Nc - 1/2 ) ** 2 ) / ( Na * Nb )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

464

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

465 *HamannSimilarity*: ( ( Nc + Nd ) - ( Na - Nc ) - ( Nb - Nc ) ) / Nt

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

466

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

467 *JaccardSimilarity*: Nc / ( ( Na - Nc) + ( Nb - Nc ) + Nc ) = Nc / (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

468 Na + Nb - Nc ) (same as Tanimoto)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

469

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

470 *Kulczynski1Similarity*: Nc / ( ( Na - Nc ) + ( Nb - Nc) ) = Nc / (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

471 Na + Nb - 2Nc )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

472

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

473 *Kulczynski2Similarity*: ( ( Nc / 2 ) * ( 2 * Nc + ( Na - Nc ) + (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

474 Nb - Nc) ) ) / ( ( Nc + ( Na - Nc ) ) * ( Nc + ( Nb - Nc ) ) ) = 0.5

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

475 * ( Nc / Na + Nc / Nb )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

476

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

477 *MatchingSimilarity*: ( Nc + Nd ) / Nt

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

478

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

479 *McConnaugheySimilarity*: ( Nc ** 2 - ( Na - Nc ) * ( Nb - Nc) ) / (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

480 Na * Nb )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

481

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

482 *OchiaiSimilarity*: Nc / SQRT ( Na * Nb ) (same as Cosine)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

483

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

484 *PearsonSimilarity*: ( ( Nc * Nd ) - ( ( Na - Nc ) * ( Nb - Nc ) ) /

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

485 SQRT ( Na * Nb * ( Na - Nc + Nd ) * ( Nb - Nc + Nd ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

486

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

487 *RogersTanimotoSimilarity*: ( Nc + Nd ) / ( ( Na - Nc) + ( Nb - Nc)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

488 + Nt) = ( Nc + Nd ) / ( Na + Nb - 2Nc + Nt)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

489

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

490 *RussellRaoSimilarity*: Nc / Nt

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

491

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

492 *SimpsonSimilarity*: Nc / MIN ( Na, Nb)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

493

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

494 *SkoalSneath1Similarity*: Nc / ( Nc + 2 * ( Na - Nc) + 2 * ( Nb -

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

495 Nc) ) = Nc / ( 2 * Na + 2 * Nb - 3 * Nc )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

496

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

497 *SkoalSneath2Similarity*: ( 2 * Nc + 2 * Nd ) / ( Nc + Nd + Nt )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

498

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

499 *SkoalSneath3Similarity*: ( Nc + Nd ) / ( ( Na - Nc ) + ( Nb - Nc )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

500 ) = ( Nc + Nd ) / ( Na + Nb - 2 * Nc )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

501

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

502 *TanimotoSimilarity*: Nc / ( ( Na - Nc) + ( Nb - Nc ) + Nc ) = Nc /

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

503 ( Na + Nb - Nc ) (same as Jaccard)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

504

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

505 *TverskySimilarity*: Nc / ( alpha * ( Na - Nc ) + ( 1 - alpha) * (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

506 Nb - Nc) + Nc ) = Nc / ( alpha * ( Na - Nb ) + Nb)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

507

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

508 *YuleSimilarity*: ( ( Nc * Nd ) - ( ( Na - Nc ) * ( Nb - Nc ) ) ) /

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

509 ( ( Nc * Nd ) + ( ( Na - Nc ) * ( Nb - Nc ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

510

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

511 Values of Tanimoto/Jaccard and Tversky coefficients are dependent on

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

512 only those bit which are set to "1" in both A and B. In order to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

513 take into account all bit positions, modified versions of Tanimoto [

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

514 Ref. 42 ] and Tversky [ Ref. 43 ] have been developed.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

515

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

516 Let:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

517

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

518 Na' = Number of bits set to "0" in A

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

519 Nb' = Number of bits set to "0" in B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

520 Nc' = Number of bits set to "0" in both A and B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

521

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

522 Tanimoto': Nc' / ( ( Na' - Nc') + ( Nb' - Nc' ) + Nc' ) = Nc' / (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

523 Na' + Nb' - Nc' )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

524

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

525 Tversky': Nc' / ( alpha * ( Na' - Nc' ) + ( 1 - alpha) * ( Nb' - Nc'

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

526 ) + Nc' ) = Nc' / ( alpha * ( Na' - Nb' ) + Nb')

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

527

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

528 Then:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

529

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

530 *WeightedTanimotoSimilarity* = beta * Tanimoto + (1 - beta) *

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

531 Tanimoto'

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

532

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

533 *WeightedTverskySimilarity* = beta * Tversky + (1 - beta) * Tversky'

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

534

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

535 --DatabaseColMode *ColNum | ColLabel*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

536 Specify how columns are identified in database fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

537 *TextFile*: using column number or column label. Possible values:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

538 *ColNum or ColLabel*. Default value: *ColNum*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

539

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

540 --DatabaseCompoundIDCol *col number | col name*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

541 This value is --DatabaseColMode mode specific. It specifies column

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

542 to use for retrieving compound ID from database fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

543 *TextFile* during similarity and dissimilarity search for output SD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

544 and CSV/TSV text files. Possible values: *col number or col label*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

545 Default value: *first column containing the word compoundID in its

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

546 column label or sequentially generated IDs*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

547

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

548 This is only used for *CompoundID* value of --DatabaseDataColsMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

549 option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

550

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

551 --DatabaseCompoundIDPrefix *text*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

552 Specify compound ID prefix to use during sequential generation of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

553 compound IDs for database fingerprints *SDFile* and *TextFile*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

554 Default value: *Cmpd*. The default value generates compound IDs

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

555 which look like Cmpd<Number>.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

556

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

557 For database fingerprints *SDFile*, this value is only used during

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

558 *LabelPrefix | MolNameOrLabelPrefix* values of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

559 --DatabaseCompoundIDMode option; otherwise, it's ignored.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

560

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

561 Examples for *LabelPrefix* or *MolNameOrLabelPrefix* value of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

562 --DatabaseCompoundIDMode:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

563

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

564 Compound

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

565

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

566 The values specified above generates compound IDs which correspond

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

567 to Compound<Number> instead of default value of Cmpd<Number>.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

568

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

569 --DatabaseCompoundIDField *DataFieldName*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

570 Specify database fingerprints *SDFile* datafield label for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

571 generating compound IDs. This value is only used during *DataField*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

572 value of --DatabaseCompoundIDMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

573

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

574 Examples for *DataField* value of --DatabaseCompoundIDMode:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

575

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

576 MolID

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

577 ExtReg

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

578

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

579 --DatabaseCompoundIDMode *DataField | MolName | LabelPrefix |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

580 MolNameOrLabelPrefix*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

581 Specify how to generate compound IDs from database fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

582 *SDFile* during similarity and dissimilarity search for output SD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

583 and CSV/TSV text files: use a *SDFile* datafield value; use molname

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

584 line from *SDFile*; generate a sequential ID with specific prefix;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

585 use combination of both MolName and LabelPrefix with usage of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

586 LabelPrefix values for empty molname lines.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

587

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

588 Possible values: *DataField | MolName | LabelPrefix |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

589 MolNameOrLabelPrefix*. Default: *LabelPrefix*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

590

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

591 For *MolNameAndLabelPrefix* value of --DatabaseCompoundIDMode,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

592 molname line in *SDFile* takes precedence over sequential compound

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

593 IDs generated using *LabelPrefix* and only empty molname values are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

594 replaced with sequential compound IDs.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

595

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

596 This is only used for *CompoundID* value of --DatabaseDataFieldsMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

597 option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

598

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

599 --DatabaseDataCols *"DataColNum1,DataColNum2,... " |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

600 DataColLabel1,DataCoLabel2,... "*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

601 This value is --DatabaseColMode mode specific. It is a comma

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

602 delimited list of database fingerprints *TextFile* data column

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

603 numbers or labels to extract and write to SD and CSV/TSV text files

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

604 along with other information for *SD | text | both* values of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

605 --output option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

606

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

607 This is only used for *Specify* value of --DatabaseDataColsMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

608 option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

609

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

610 Examples:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

611

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

612 1,2,3

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

613 CompoundName,MolWt

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

614

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

615 --DatabaseDataColsMode *All | Specify | CompoundID*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

616 Specify how data columns from database fingerprints *TextFile* are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

617 transferred to output SD and CSV/TSV text files along with other

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

618 information for *SD | text | both* values of --output option:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

619 transfer all data columns; extract specified data columns; generate

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

620 a compound ID database compound prefix. Possible values: *All |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

621 Specify | CompoundID*. Default value: *CompoundID*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

622

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

623 --DatabaseDataFields *"FieldLabel1,FieldLabel2,... "*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

624 Comma delimited list of database fingerprints *SDFile* data fields

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

625 to extract and write to SD and CSV/TSV text files along with other

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

626 information for *SD | text | both* values of --output option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

627

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

628 This is only used for *Specify* value of --DatabaseDataFieldsMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

629 option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

630

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

631 Examples:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

632

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

633 Extreg

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

634 MolID,CompoundName

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

635

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

636 --DatabaseDataFieldsMode *All | Common | Specify | CompoundID*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

637 Specify how data fields from database fingerprints *SDFile* are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

638 transferred to output SD and CSV/TSV text files along with other

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

639 information for *SD | text | both* values of --output option:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

640 transfer all SD data field; transfer SD data files common to all

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

641 compounds; extract specified data fields; generate a compound ID

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

642 using molname line, a compound prefix, or a combination of both.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

643 Possible values: *All | Common | specify | CompoundID*. Default

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

644 value: *CompoundID*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

645

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

646 --DatabaseFingerprintsCol *col number | col name*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

647 This value is --DatabaseColMode specific. It specifies fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

648 column to use during similarity and dissimilarity search for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

649 database fingerprints *TextFile*. Possible values: *col number or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

650 col label*. Default value: *first column containing the word

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

651 Fingerprints in its column label*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

652

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

653 --DatabaseFingerprintsField *FieldLabel*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

654 Fingerprints field label to use during similarity and dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

655 search for database fingerprints *SDFile*. Default value: *first

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

656 data field label containing the word Fingerprints in its label*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

657

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

658 --DistanceCutoff *number*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

659 Distance cutoff value to use during comparison of distance value

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

660 between a pair of database and reference molecule calculated by

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

661 distance comparison methods for fingerprints vector string data

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

662 values. Possible values: *Any valid number*. Default value: *10*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

663

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

664 The comparison value between a pair of database and reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

665 molecule must meet the cutoff criterion as shown below:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

666

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

667 SeachMode CutoffCriterion ComparisonValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

668

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

669 Similarity <= Lower value implies high similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

670 Dissimilarity >= Higher value implies high dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

671

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

672 This option is only used during distance coefficients values of -v,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

673 --VectorComparisonMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

674

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

675 This option is ignored during *No* value of --GroupFusionApplyCutoff

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

676 for *MultipleReferences* -m, --mode.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

677

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

678 -d, --detail *InfoLevel*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

679 Level of information to print about lines being ignored. Default:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

680 *1*. Possible values: *1, 2 or 3*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

681

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

682 -f, --fast

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

683 In this mode, fingerprints columns specified using --FingerprintsCol

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

684 for reference and database fingerprints *TextFile(s)*, and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

685 --FingerprintsField for reference and database fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

686 *SDFile(s)* are assumed to contain valid fingerprints data and no

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

687 checking is performed before performing similarity and dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

688 search. By default, fingerprints data is validated before computing

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

689 pairwise similarity and distance coefficients.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

690

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

691 --FingerprintsMode *AutoDetect | FingerprintsBitVectorString |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

692 FingerprintsVectorString*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

693 Format of fingerprint strings data in reference and database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

694 fingerprints *SD, FP, or Text (CSV/TSV)* files: automatically detect

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

695 format of fingerprints string created by MayaChemTools fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

696 generation scripts or explicitly specify its format. Possible

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

697 values: *AutoDetect | FingerprintsBitVectorString |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

698 FingerprintsVectorString*. Default value: *AutoDetect*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

699

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

700 -g, --GroupFusionRule *Max, Min, Mean, Median, Sum, Euclidean*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

701 Specify what group fusion [ Ref 94-97, Ref 100, Ref 105 ] rule to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

702 use for calculating similarity of a database molecule against a set

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

703 of reference molecules during *MultipleReferences* value of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

704 similarity search -m, --mode. Possible values: *Max, Min, Mean,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

705 Median, Sum, Euclidean*. Default value: *Max*. *Mean* value

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

706 corresponds to average or arithmetic mean. The group fusion rule is

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

707 also referred to as data fusion of consensus scoring in the

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

708 literature.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

709

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

710 For a reference molecules set and a database molecule, let:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

711

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

712 N = Number of reference molecules in a set

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

713

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

714 i = ith reference reference molecule in a set

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

715 n = Nth reference reference molecule in a set

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

716

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

717 d = dth database molecule

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

718

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

719 Crd = Fingerprints comparison value between rth reference and dth database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

720 molecule - similarity/dissimilarity comparison using similarity or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

721 distance coefficient

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

722

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

723 Then, various group fusion rules to calculate fused similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

724 between a database molecule and reference molecules set are defined

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

725 as follows:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

726

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

727 Max: MAX ( C1d, C2d, ..., Cid, ..., Cnd )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

728

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

729 Min: MIN ( C1d, C2d, ..., Cid, ..., Cnd )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

730

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

731 Mean: SUM ( C1d, C2d, ..., Cid, ..., Cnd ) / N

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

732

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

733 Median: MEDIAN ( C1d, C2d, ..., Cid, ..., Cnd )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

734

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

735 Sum: SUM ( C1d, C2d, ..., Cid, ..., Cnd )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

736

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

737 Euclidean: SQRT( SUM( C1d ** 2, C2d ** 2, ..., Cid ** 2, ..., Cnd

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

738 *** 2) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

739

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

740 The fingerprints bit-vector or vector string of each reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

741 molecule in a set is compared with a database molecule using a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

742 similarity or distance coefficient specified via -b,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

743 --BitVectorComparisonMode or -v, --VectorComparisonMode. The

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

744 reference molecules whose comparison values with a database molecule

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

745 fall outside specified --SimilarityCutoff or --DistanceCutoff are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

746 ignored during *Yes* value of --GroupFusionApplyCutoff. The

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

747 specified -g, --GroupFusionRule is applied to -k, --kNN reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

748 molecules to calculate final fused similarity value between a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

749 database molecule and reference molecules set.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

750

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

751 During dissimilarity search or usage of distance comparison

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

752 coefficient in similarity search, the meaning of fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

753 comaprison value is automatically reversed as shown below:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

754

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

755 SeachMode ComparisonCoefficient ComparisonValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

756

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

757 Similarity SimilarityCoefficient Higher value imples high similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

758 Similarity DistanceCoefficient Lower value implies high similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

759

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

760 Dissimilarity SimilarityCoefficient Lower value implies high

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

761 dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

762 Dissimilarity DistanceCoefficient Higher value implies high

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

763 dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

764

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

765 Consequently, *Max* implies highest and lowest comparison value for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

766 usage of similarity and distance coefficient respectively during

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

767 similarity search. And it corresponds to lowest and highest

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

768 comparison value for usage of similarity and distance coefficient

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

769 respectively during dissimilarity search. During *Min* fusion rule,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

770 the highest and lowest comparison values are appropriately reversed.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

771

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

772 --GroupFusionApplyCutoff *Yes | No*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

773 Specify whether to apply --SimilarityCutoff or --DistanceCutoff

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

774 values during application of -g, --GroupFusionRule to reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

775 molecules set. Possible values: *Yes or No*. Default value: *Yes*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

776

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

777 During *Yes* value of --GroupFusionApplyCutoff, the reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

778 molecules whose comparison values with a database molecule fall

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

779 outside specified --SimilarityCutoff or --DistanceCutoff are not

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

780 used to calculate final fused similarity value between a database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

781 molecule and reference molecules set.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

782

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

783 -h, --help

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

784 Print this help message.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

785

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

786 --InDelim *comma | semicolon*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

787 Input delimiter for reference and database fingerprints CSV

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

788 *TextFile(s)*. Possible values: *comma or semicolon*. Default value:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

789 *comma*. For TSV files, this option is ignored and *tab* is used as

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

790 a delimiter.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

791

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

792 -k, --kNN *all | number*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

793 Number of k-nearest neighbors (k-NN) reference molecules to use

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

794 during -g, --GroupFusionRule for calculating similarity of a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

795 database molecule against a set of reference molecules. Possible

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

796 values: *all | positive integers*. Default: *all*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

797

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

798 After ranking similarity values between a database molecule and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

799 reference molecules during *MultipleReferences* value of similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

800 search -m, --mode option, a top -k, --KNN reference molecule are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

801 selected and used during -g, --GroupFusionRule.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

802

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

803 This option is -s, --SearchMode dependent: It corresponds to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

804 dissimilar molecules during *DissimilaritySearch* value of -s,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

805 --SearchMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

806

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

807 -m, --mode *IndividualReference | MultipleReferences*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

808 Specify how to treat reference molecules in

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

809 *ReferenceFingerprintsFile* during similarity search: Treat each

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

810 reference molecule individually during similarity search or perform

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

811 similarity search by treating multiple reference molecules as a set.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

812 Possible values: *IndividualReference | MultipleReferences*. Default

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

813 value: *MultipleReferences*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

814

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

815 During *IndividualReference* value of -m, --Mode for similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

816 search, fingerprints bit-vector or vector string of each reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

817 molecule is compared with database molecules using specified

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

818 similarity or distance coefficients to identify most similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

819 molecules for each reference molecule. Based on value of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

820 --SimilarCountMode, upto --n, NumOfSimilarMolecules or -p,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

821 --PercentSimilarMolecules at specified <--SimilarityCutoff> or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

822 --DistanceCutoff are identified for each reference molecule.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

823

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

824 During *MultipleReferences* value -m, --mode for similarity search,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

825 all reference molecules are considered as a set and -g,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

826 --GroupFusionRule is used to calculate similarity of a database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

827 molecule against reference molecules set either using all reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

828 molecules or number of k-nearest neighbors (k-NN) to a database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

829 molecule specified using -k, --kNN. The fingerprints bit-vector or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

830 vector string of each reference molecule in a set is compared with a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

831 database molecule using a similarity or distance coefficient

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

832 specified via -b, --BitVectorComparisonMode or -v,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

833 --VectorComparisonMode. The reference molecules whose comparison

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

834 values with a database molecule fall outside specified

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

835 --SimilarityCutoff or --DistanceCutoff are ignored. The specified

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

836 -g, --GroupFusionRule is applied to rest of -k, --kNN reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

837 molecules to calculate final similarity value between a database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

838 molecule and reference molecules set.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

839

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

840 The meaning of similarity and distance is automatically reversed

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

841 during *DissimilaritySearch* value of -s, --SearchMode along with

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

842 appropriate handling of --SimilarityCutoff or --DistanceCutoff

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

843 values.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

844

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

845 -n, --NumOfSimilarMolecules *number*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

846 Maximum number of most similar database molecules to find for each

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

847 reference molecule or set of reference molecules based on

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

848 *IndividualReference* or *MultipleReferences* value of similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

849 search -m, --mode option. Default: *10*. Valid values: positive

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

850 integers.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

851

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

852 This option is ignored during *PercentSimilar* value of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

853 --SimilarCountMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

854

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

855 This option is -s, --SearchMode dependent: It corresponds to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

856 dissimilar molecules during *DissimilaritySearch* value of -s,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

857 --SearchMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

858

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

859 --OutDelim *comma | tab | semicolon*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

860 Delimiter for output CSV/TSV text file. Possible values: *comma,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

861 tab, or semicolon* Default value: *comma*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

862

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

863 --output *SD | text | both*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

864 Type of output files to generate. Possible values: *SD, text, or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

865 both*. Default value: *text*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

866

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

867 -o, --overwrite

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

868 Overwrite existing files

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

869

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

870 -p, --PercentSimilarMolecules *number*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

871 Maximum percent of mosy similar database molecules to find for each

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

872 reference molecule or set of reference molecules based on

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

873 *IndividualReference* or *MultipleReferences* value of similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

874 search -m, --mode option. Default: *1* percent of database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

875 molecules. Valid values: non-zero values in between *0 to 100*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

876

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

877 This option is ignored during *NumOfSimilar* value of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

878 --SimilarCountMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

879

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

880 During *PercentSimilar* value of --SimilarCountMode option, the

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

881 number of molecules in *DatabaseFingerprintsFile* is counted and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

882 number of similar molecules correspond to --PercentSimilarMolecules

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

883 of the total number of database molecules.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

884

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

885 This option is -s, --SearchMode dependent: It corresponds to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

886 dissimilar molecules during *DissimilaritySearch* value of -s,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

887 --SearchMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

888

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

889 --precision *number*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

890 Precision of calculated similarity values for comparison and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

891 generating output files. Default: up to *2* decimal places. Valid

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

892 values: positive integers.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

893

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

894 -q, --quote *Yes | No*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

895 Put quote around column values in output CSV/TSV text file. Possible

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

896 values: *Yes or No*. Default value: *Yes*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

897

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

898 --ReferenceColMode *ColNum | ColLabel*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

899 Specify how columns are identified in reference fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

900 *TextFile*: using column number or column label. Possible values:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

901 *ColNum or ColLabel*. Default value: *ColNum*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

902

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

903 --ReferenceCompoundIDCol *col number | col name*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

904 This value is --ReferenceColMode mode specific. It specifies column

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

905 to use for retrieving compound ID from reference fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

906 *TextFile* during similarity and dissimilarity search for output SD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

907 and CSV/TSV text files. Possible values: *col number or col label*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

908 Default value: *first column containing the word compoundID in its

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

909 column label or sequentially generated IDs*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

910

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

911 --ReferenceCompoundIDPrefix *text*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

912 Specify compound ID prefix to use during sequential generation of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

913 compound IDs for reference fingerprints *SDFile* and *TextFile*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

914 Default value: *Cmpd*. The default value generates compound IDs

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

915 which looks like Cmpd<Number>.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

916

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

917 For reference fingerprints *SDFile*, this value is only used during

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

918 *LabelPrefix | MolNameOrLabelPrefix* values of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

919 --ReferenceCompoundIDMode option; otherwise, it's ignored.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

920

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

921 Examples for *LabelPrefix* or *MolNameOrLabelPrefix* value of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

922 --DatabaseCompoundIDMode:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

923

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

924 Compound

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

925

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

926 The values specified above generates compound IDs which correspond

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

927 to Compound<Number> instead of default value of Cmpd<Number>.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

928

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

929 --ReferenceCompoundIDField *DataFieldName*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

930 Specify reference fingerprints *SDFile* datafield label for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

931 generating compound IDs. This value is only used during *DataField*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

932 value of --ReferenceCompoundIDMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

933

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

934 Examples for *DataField* value of --ReferenceCompoundIDMode:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

935

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

936 MolID

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

937 ExtReg

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

938

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

939 --ReferenceCompoundIDMode *DataField | MolName | LabelPrefix |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

940 MolNameOrLabelPrefix*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

941 Specify how to generate compound IDs from reference fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

942 *SDFile* during similarity and dissimilarity search for output SD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

943 and CSV/TSV text files: use a *SDFile* datafield value; use molname

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

944 line from *SDFile*; generate a sequential ID with specific prefix;

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

945 use combination of both MolName and LabelPrefix with usage of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

946 LabelPrefix values for empty molname lines.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

947

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

948 Possible values: *DataField | MolName | LabelPrefix |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

949 MolNameOrLabelPrefix*. Default: *LabelPrefix*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

950

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

951 For *MolNameAndLabelPrefix* value of --ReferenceCompoundIDMode,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

952 molname line in *SDFiles* takes precedence over sequential compound

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

953 IDs generated using *LabelPrefix* and only empty molname values are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

954 replaced with sequential compound IDs.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

955

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

956 --ReferenceFingerprintsCol *col number | col name*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

957 This value is --ReferenceColMode specific. It specifies fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

958 column to use during similarity and dissimilarity search for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

959 reference fingerprints *TextFile*. Possible values: *col number or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

960 col label*. Default value: *first column containing the word

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

961 Fingerprints in its column label*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

962

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

963 --ReferenceFingerprintsField *FieldLabel*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

964 Fingerprints field label to use during similarity and dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

965 search for reference fingerprints *SDFile*. Default value: *first

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

966 data field label containing the word Fingerprints in its label*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

967

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

968 -r, --root *RootName*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

969 New file name is generated using the root: <Root>.<Ext>. Default for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

970 new file name: <ReferenceFileName>SimilaritySearching.<Ext>. The

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

971 output file type determines <Ext> value. The sdf, csv, and tsv <Ext>

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

972 values are used for SD, comma/semicolon, and tab delimited text

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

973 files respectively.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

974

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

975 -s, --SearchMode *SimilaritySearch | DissimilaritySearch*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

976 Specify how to find molecules from database molecules for individual

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

977 reference molecules or set of reference molecules: Find similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

978 molecules or dissimilar molecules from database molecules. Possible

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

979 values: *SimilaritySearch | DissimilaritySearch*. Default value:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

980 *SimilaritySearch*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

981

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

982 During *DissimilaritySearch* value of -s, --SearchMode option, the

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

983 meaning of the following options is switched and they correspond to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

984 dissimilar molecules instead of similar molecules:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

985 --SimilarCountMode, -n, --NumOfSimilarMolecules,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

986 --PercentSimilarMolecules, -k, --kNN.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

987

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

988 --SimilarCountMode *NumOfSimilar | PercentSimilar*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

989 Specify method used to count similar molecules found from database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

990 molecules for individual reference molecules or set of reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

991 molecules: Find number of similar molecules or percent of similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

992 molecules from database molecules. Possible values: *NumOfSimilar |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

993 PercentSimilar*. Default value: *NumOfSimilar*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

994

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

995 The values for number of similar molecules and percent similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

996 molecules are specified using options -n, NumOfSimilarMolecule and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

997 --PercentSimilarMolecules.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

998

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

999 This option is -s, --SearchMode dependent: It corresponds to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1000 dissimilar molecules during *DissimilaritySearch* value of -s,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1001 --SearchMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1002

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1003 --SimilarityCutoff *number*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1004 Similarity cutoff value to use during comparison of similarity value

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1005 between a pair of database and reference molecules calculated by

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1006 similarity comparison methods for fingerprints bit-vector vector

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1007 strings data values. Possible values: *Any valid number*. Default

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1008 value: *0.75*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1009

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1010 The comparison value between a pair of database and reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1011 molecule must meet the cutoff criterion as shown below:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1012

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1013 SeachMode CutoffCriterion ComparisonValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1014

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1015 Similarity >= Higher value implies high similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1016 Dissimilarity <= Lower value implies high dissimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1017

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1018 This option is ignored during *No* value of --GroupFusionApplyCutoff

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1019 for *MultipleReferences* -m, --mode.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1020

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1021 This option is -s, --SearchMode dependent: It corresponds to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1022 dissimilar molecules during *DissimilaritySearch* value of -s,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1023 --SearchMode option.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1024

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1025 -v, --VectorComparisonMode *SupportedSimilarityName |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1026 SupportedDistanceName*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1027 Specify what similarity or distance coefficient to use for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1028 calculating similarity between fingerprint vector strings data

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1029 values in *ReferenceFingerprintsFile* and *DatabaseFingerprintsFile*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1030 during similarity search. Possible values: *TanimotoSimilairy | ...

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1031 | ManhattanDistance | ...*. Default value: *TanimotoSimilarity*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1032

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1033 The value of -v, --VectorComparisonMode, in conjunction with

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1034 --VectorComparisonFormulism, decides which type of similarity and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1035 distance coefficient formulism gets used.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1036

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1037 The current releases supports the following similarity and distance

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1038 coefficients: *CosineSimilarity, CzekanowskiSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1039 DiceSimilarity, OchiaiSimilarity, JaccardSimilarity,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1040 SorensonSimilarity, TanimotoSimilarity, CityBlockDistance,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1041 EuclideanDistance, HammingDistance, ManhattanDistance,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1042 SoergelDistance*. These similarity and distance coefficients are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1043 described below.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1044

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1045 FingerprintsVector.pm module, used to calculate similarity and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1046 distance coefficients, provides support to perform comparison

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1047 between vectors containing three different types of values:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1048

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1049 Type I: OrderedNumericalValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1050

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1051 . Size of two vectors are same

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1052 . Vectors contain real values in a specific order. For example: MACCS keys

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1053 count, Topological pharmnacophore atom pairs and so on.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1054

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1055 Type II: UnorderedNumericalValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1056

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1057 . Size of two vectors might not be same

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1058 . Vectors contain unordered real value identified by value IDs. For example:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1059 Toplogical atom pairs, Topological atom torsions and so on

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1060

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1061 Type III: AlphaNumericalValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1062

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1063 . Size of two vectors might not be same

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1064 . Vectors contain unordered alphanumerical values. For example: Extended

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1065 connectivity fingerprints, atom neighborhood fingerprints.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1066

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1067 Before performing similarity or distance calculations between

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1068 vectors containing UnorderedNumericalValues or AlphaNumericalValues,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1069 the vectors are transformed into vectors containing unique

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1070 OrderedNumericalValues using value IDs for UnorderedNumericalValues

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1071 and values itself for AlphaNumericalValues.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1072

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1073 Three forms of similarity and distance calculation between two

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1074 vectors, specified using --VectorComparisonFormulism option, are

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1075 supported: *AlgebraicForm, BinaryForm or SetTheoreticForm*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1076

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1077 For *BinaryForm*, the ordered list of processed final vector values

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1078 containing the value or count of each unique value type is simply

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1079 converted into a binary vector containing 1s and 0s corresponding to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1080 presence or absence of values before calculating similarity or

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1081 distance between two vectors.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1082

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1083 For two fingerprint vectors A and B of same size containing

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1084 OrderedNumericalValues, let:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1085

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1086 N = Number values in A or B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1087

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1088 Xa = Values of vector A

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1089 Xb = Values of vector B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1090

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1091 Xai = Value of ith element in A

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1092 Xbi = Value of ith element in B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1093

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1094 SUM = Sum of i over N values

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1095

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1096 For SetTheoreticForm of calculation between two vectors, let:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1097

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1098 SetIntersectionXaXb = SUM ( MIN ( Xai, Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1099 SetDifferenceXaXb = SUM ( Xai ) + SUM ( Xbi ) - SUM ( MIN ( Xai, Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1100

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1101 For BinaryForm of calculation between two vectors, let:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1102

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1103 Na = Number of bits set to "1" in A = SUM ( Xai )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1104 Nb = Number of bits set to "1" in B = SUM ( Xbi )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1105 Nc = Number of bits set to "1" in both A and B = SUM ( Xai * Xbi )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1106 Nd = Number of bits set to "0" in both A and B

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1107 = SUM ( 1 - Xai - Xbi + Xai * Xbi)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1108

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1109 N = Number of bits set to "1" or "0" in A or B = Size of A or B = Na + Nb - Nc + Nd

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1110

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1111 Additionally, for BinaryForm various values also correspond to:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1112

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1113 Na = | Xa |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1114 Nb = | Xb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1115 Nc = | SetIntersectionXaXb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1116 Nd = N - | SetDifferenceXaXb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1117

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1118 | SetDifferenceXaXb | = N - Nd = Na + Nb - Nc + Nd - Nd = Na + Nb - Nc

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1119 = | Xa | + | Xb | - | SetIntersectionXaXb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1120

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1121 Various similarity and distance coefficients [ Ref 40, Ref 62, Ref

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1122 64 ] for a pair of vectors A and B in *AlgebraicForm, BinaryForm and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1123 SetTheoreticForm* are defined as follows:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1124

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1125 CityBlockDistance: ( same as HammingDistance and ManhattanDistance)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1126

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1127 *AlgebraicForm*: SUM ( ABS ( Xai - Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1128

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1129 *BinaryForm*: ( Na - Nc ) + ( Nb - Nc ) = Na + Nb - 2 * Nc

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1130

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1131 *SetTheoreticForm*: | SetDifferenceXaXb | - | SetIntersectionXaXb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1132 = SUM ( Xai ) + SUM ( Xbi ) - 2 * ( SUM ( MIN ( Xai, Xbi ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1133

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1134 CosineSimilarity: ( same as OchiaiSimilarityCoefficient)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1135

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1136 *AlgebraicForm*: SUM ( Xai * Xbi ) / SQRT ( SUM ( Xai ** 2) * SUM (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1137 Xbi ** 2) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1138

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1139 *BinaryForm*: Nc / SQRT ( Na * Nb)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1140

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1141 *SetTheoreticForm*: | SetIntersectionXaXb | / SQRT ( |Xa| * |Xb| ) =

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1142 SUM ( MIN ( Xai, Xbi ) ) / SQRT ( SUM ( Xai ) * SUM ( Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1143

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1144 CzekanowskiSimilarity: ( same as DiceSimilarity and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1145 SorensonSimilarity)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1146

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1147 *AlgebraicForm*: ( 2 * ( SUM ( Xai * Xbi ) ) ) / ( SUM ( Xai ** 2) +

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1148 SUM ( Xbi **2 ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1149

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1150 *BinaryForm*: 2 * Nc / ( Na + Nb )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1151

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1152 *SetTheoreticForm*: 2 * | SetIntersectionXaXb | / ( |Xa| + |Xb| ) =

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1153 2 * ( SUM ( MIN ( Xai, Xbi ) ) ) / ( SUM ( Xai ) + SUM ( Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1154

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1155 DiceSimilarity: ( same as CzekanowskiSimilarity and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1156 SorensonSimilarity)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1157

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1158 *AlgebraicForm*: ( 2 * ( SUM ( Xai * Xbi ) ) ) / ( SUM ( Xai ** 2) +

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1159 SUM ( Xbi **2 ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1160

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1161 *BinaryForm*: 2 * Nc / ( Na + Nb )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1162

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1163 *SetTheoreticForm*: 2 * | SetIntersectionXaXb | / ( |Xa| + |Xb| ) =

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1164 2 * ( SUM ( MIN ( Xai, Xbi ) ) ) / ( SUM ( Xai ) + SUM ( Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1165

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1166 EuclideanDistance:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1167

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1168 *AlgebraicForm*: SQRT ( SUM ( ( ( Xai - Xbi ) ** 2 ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1169

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1170 *BinaryForm*: SQRT ( ( Na - Nc ) + ( Nb - Nc ) ) = SQRT ( Na + Nb -

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1171 2 * Nc )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1172

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1173 *SetTheoreticForm*: SQRT ( | SetDifferenceXaXb | - |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1174 SetIntersectionXaXb | ) = SQRT ( SUM ( Xai ) + SUM ( Xbi ) - 2 * (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1175 SUM ( MIN ( Xai, Xbi ) ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1176

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1177 HammingDistance: ( same as CityBlockDistance and ManhattanDistance)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1178

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1179 *AlgebraicForm*: SUM ( ABS ( Xai - Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1180

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1181 *BinaryForm*: ( Na - Nc ) + ( Nb - Nc ) = Na + Nb - 2 * Nc

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1182

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1183 *SetTheoreticForm*: | SetDifferenceXaXb | - | SetIntersectionXaXb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1184 = SUM ( Xai ) + SUM ( Xbi ) - 2 * ( SUM ( MIN ( Xai, Xbi ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1185

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1186 JaccardSimilarity: ( same as TanimotoSimilarity)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1187

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1188 *AlgebraicForm*: SUM ( Xai * Xbi ) / ( SUM ( Xai ** 2 ) + SUM ( Xbi

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1189 ** 2 ) - SUM ( Xai * Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1190

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1191 *BinaryForm*: Nc / ( ( Na - Nc ) + ( Nb - Nc ) + Nc ) = Nc / ( Na +

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1192 Nb - Nc )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1193

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1194 *SetTheoreticForm*: | SetIntersectionXaXb | / | SetDifferenceXaXb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1195 = SUM ( MIN ( Xai, Xbi ) ) / ( SUM ( Xai ) + SUM ( Xbi ) - SUM ( MIN

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1196 ( Xai, Xbi ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1197

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1198 ManhattanDistance: ( same as CityBlockDistance and HammingDistance)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1199

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1200 *AlgebraicForm*: SUM ( ABS ( Xai - Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1201

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1202 *BinaryForm*: ( Na - Nc ) + ( Nb - Nc ) = Na + Nb - 2 * Nc

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1203

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1204 *SetTheoreticForm*: | SetDifferenceXaXb | - | SetIntersectionXaXb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1205 = SUM ( Xai ) + SUM ( Xbi ) - 2 * ( SUM ( MIN ( Xai, Xbi ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1206

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1207 OchiaiSimilarity: ( same as CosineSimilarity)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1208

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1209 *AlgebraicForm*: SUM ( Xai * Xbi ) / SQRT ( SUM ( Xai ** 2) * SUM (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1210 Xbi ** 2) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1211

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1212 *BinaryForm*: Nc / SQRT ( Na * Nb)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1213

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1214 *SetTheoreticForm*: | SetIntersectionXaXb | / SQRT ( |Xa| * |Xb| ) =

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1215 SUM ( MIN ( Xai, Xbi ) ) / SQRT ( SUM ( Xai ) * SUM ( Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1216

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1217 SorensonSimilarity: ( same as CzekanowskiSimilarity and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1218 DiceSimilarity)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1219

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1220 *AlgebraicForm*: ( 2 * ( SUM ( Xai * Xbi ) ) ) / ( SUM ( Xai ** 2) +

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1221 SUM ( Xbi **2 ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1222

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1223 *BinaryForm*: 2 * Nc / ( Na + Nb )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1224

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1225 *SetTheoreticForm*: 2 * | SetIntersectionXaXb | / ( |Xa| + |Xb| ) =

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1226 2 * ( SUM ( MIN ( Xai, Xbi ) ) ) / ( SUM ( Xai ) + SUM ( Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1227

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1228 SoergelDistance:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1229

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1230 *AlgebraicForm*: SUM ( ABS ( Xai - Xbi ) ) / SUM ( MAX ( Xai, Xbi )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1231 )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1232

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1233 *BinaryForm*: 1 - Nc / ( Na + Nb - Nc ) = ( Na + Nb - 2 * Nc ) / (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1234 Na + Nb - Nc )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1235

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1236 *SetTheoreticForm*: ( | SetDifferenceXaXb | - | SetIntersectionXaXb

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1237 | ) / | SetDifferenceXaXb | = ( SUM ( Xai ) + SUM ( Xbi ) - 2 * (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1238 SUM ( MIN ( Xai, Xbi ) ) ) ) / ( SUM ( Xai ) + SUM ( Xbi ) - SUM (

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1239 MIN ( Xai, Xbi ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1240

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1241 TanimotoSimilarity: ( same as JaccardSimilarity)

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1242

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1243 *AlgebraicForm*: SUM ( Xai * Xbi ) / ( SUM ( Xai ** 2 ) + SUM ( Xbi

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1244 ** 2 ) - SUM ( Xai * Xbi ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1245

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1246 *BinaryForm*: Nc / ( ( Na - Nc ) + ( Nb - Nc ) + Nc ) = Nc / ( Na +

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1247 Nb - Nc )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1248

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1249 *SetTheoreticForm*: | SetIntersectionXaXb | / | SetDifferenceXaXb |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1250 = SUM ( MIN ( Xai, Xbi ) ) / ( SUM ( Xai ) + SUM ( Xbi ) - SUM ( MIN

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1251 ( Xai, Xbi ) ) )

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1252

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1253 --VectorComparisonFormulism *AlgebraicForm | BinaryForm |

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1254 SetTheoreticForm*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1255 Specify fingerprints vector comparison formulism to use for

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1256 calculation similarity and distance coefficients during -v,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1257 --VectorComparisonMode. Possible values: *AlgebraicForm | BinaryForm

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1258 | SetTheoreticForm*. Default value: *AlgebraicForm*.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1259

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1260 For fingerprint vector strings containing AlphaNumericalValues data

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1261 values - ExtendedConnectivityFingerprints,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1262 AtomNeighborhoodsFingerprints and so on - all three formulism result

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1263 in same value during similarity and distance calculations.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1264

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1265 -w, --WorkingDir *DirName*

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1266 Location of working directory. Default: current directory.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1267

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1268 EXAMPLES

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1269 To perform similarity search using Tanimoto coefficient by treating all

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1270 reference molecules as a set to find 10 most similar database molecules

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1271 with application of Max group fusion rule and similarity cutoff to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1272 supported fingerprints strings data in SD fingerprints files present in

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1273 a data fields with Fingerprint substring in their labels, and create a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1274 ReferenceFPHexSimilaritySearching.csv file containing sequentially

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1275 generated database compound IDs with Cmpd prefix, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1276

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1277 % SimilaritySearchingFingerprints.pl -o ReferenceSampleFPHex.sdf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1278 DatabaseSampleFPHex.sdf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1279

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1280 To perform similarity search using Tanimoto coefficient by treating all

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1281 reference molecules as a set to find 10 most similar database molecules

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1282 with application of Max group fusion rule and similarity cutoff to

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1283 supported fingerprints strings data in FP fingerprints files, and create

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1284 a SimilaritySearchResults.csv file containing database compound IDs

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1285 retireved from FP file, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1286

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1287 % SimilaritySearchingFingerprints.pl -r SimilaritySearchResults -o

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1288 ReferenceSampleFPBin.fpf DatabaseSampleFPBin.fpf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1289

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1290 To perform similarity search using Tanimoto coefficient by treating all

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1291 reference molecules as a set to find 10 most similar database database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1292 molecules with application of Max group fusion rule and similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1293 cutoff to supported fingerprints strings data in text fingerprints files

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1294 present in a column names containing Fingerprint substring in their

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1295 names, and create a ReferenceFPHexSimilaritySearching.csv file

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1296 containing database compound IDs retireved column name containing

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1297 CompoundID substring or sequentially generated compound IDs, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1298

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1299 % SimilaritySearchingFingerprints.pl -o ReferenceSampleFPCount.csv

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1300 DatabaseSampleFPCount.csv

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1301

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1302 To perform similarity search using Tanimoto coefficient by treating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1303 reference molecules as individual molecules to find 10 most similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1304 database molecules for each reference molecule with application of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1305 similarity cutoff to supported fingerprints strings data in SD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1306 fingerprints files present in a data fields with Fingerprint substring

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1307 in their labels, and create a ReferenceFPHexSimilaritySearching.csv file

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1308 containing sequentially generated reference and database compound IDs

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1309 with Cmpd prefix, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1310

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1311 % SimilaritySearchingFingerprints.pl -mode IndividualReference -o

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1312 ReferenceSampleFPHex.sdf DatabaseSampleFPHex.sdf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1313

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1314 To perform similarity search using Tanimoto coefficient by treating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1315 reference molecules as individual molecules to find 10 most similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1316 database molecules for each reference molecule with application of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1317 similarity cutoff to supported fingerprints strings data in FP

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1318 fingerprints files, and create a ReferenceFPHexSimilaritySearching.csv

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1319 file containing references and database compound IDs retireved from FP

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1320 file, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1321

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1322 % SimilaritySearchingFingerprints.pl -mode IndividualReference -o

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1323 ReferenceSampleFPHex.fpf DatabaseSampleFPHex.fpf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1324

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1325 To perform similarity search using Tanimoto coefficient by treating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1326 reference molecules as individual molecules to find 10 most similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1327 database molecules for each reference molecule with application of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1328 similarity cutoff to supported fingerprints strings data in text

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1329 fingerprints files present in a column names containing Fingerprint

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1330 substring in their names, and create a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1331 ReferenceFPHexSimilaritySearching.csv file containing reference and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1332 database compound IDs retrieved column name containing CompoundID

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1333 substring or sequentially generated compound IDs, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1334

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1335 % SimilaritySearchingFingerprints.pl -mode IndividualReference -o

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1336 ReferenceSampleFPHex.csv DatabaseSampleFPHex.csv

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1337

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1338 To perform dissimilarity search using Tanimoto coefficient by treating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1339 all reference molecules as a set to find 10 most dissimilar database

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1340 molecules with application of Max group fusion rule and similarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1341 cutoff to supported fingerprints strings data in SD fingerprints files

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1342 present in a data fields with Fingerprint substring in their labels, and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1343 create a ReferenceFPHexSimilaritySearching.csv file containing

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1344 sequentially generated database compound IDs with Cmpd prefix, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1345

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1346 % SimilaritySearchingFingerprints.pl --mode MultipleReferences --SearchMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1347 DissimilaritySearch -o ReferenceSampleFPHex.sdf DatabaseSampleFPHex.sdf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1348

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1349 To perform similarity search using CityBlock distance by treating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1350 reference molecules as individual molecules to find 10 most similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1351 database molecules for each reference molecule with application of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1352 distance cutoff to supported vector fingerprints strings data in SD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1353 fingerprints files present in a data fields with Fingerprint substring

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1354 in their labels, and create a ReferenceFPHexSimilaritySearching.csv file

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1355 containing sequentially generated reference and database compound IDs

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1356 with Cmpd prefix, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1357

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1358 % SimilaritySearchingFingerprints.pl -mode IndividualReference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1359 --VectorComparisonMode CityBlockDistance --VectorComparisonFormulism

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1360 AlgebraicForm --DistanceCutoff 10 -o

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1361 ReferenceSampleFPCount.sdf DatabaseSampleFPCount.sdf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1362

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1363 To perform similarity search using Tanimoto coefficient by treating all

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1364 reference molecules as a set to find 100 most similar database molecules

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1365 with application of Mean group fusion rule to to top 10 reference

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1366 molecules with in similarity cutoff of 0.75 to supported fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1367 strings data in FP fingerprints files, and create a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1368 ReferenceFPHexSimilaritySearching.csv file containing database compound

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1369 IDs retrieved from FP file, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1370

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1371 % SimilaritySearchingFingerprints.pl --mode MultipleReferences --SearchMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1372 SimilaritySearch --BitVectorComparisonMode TanimotoSimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1373 --GroupFusionRule Mean --GroupFusionApplyCutoff Yes --kNN 10

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1374 --SimilarityCutoff 0.75 --SimilarCountMode NumOfSimilar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1375 --NumOfSimilarMolecules 100 -o

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1376 ReferenceSampleFPHex.fpf DatabaseSampleFPHex.fpf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1377

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1378 To perform similarity search using Tanimoto coefficient by treating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1379 reference molecules as individual molecules to find 2 percent of most

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1380 similar database molecules for each reference molecule with application

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1381 of similarity cutoff of 0.85 to supported fingerprints strings data in

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1382 text fingerprints files present in specific columns and create a

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1383 ReferenceFPHexSimilaritySearching.csv file containing reference and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1384 database compoundIDs retrieved from specific columns, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1385

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1386 % SimilaritySearchingFingerprints.pl --mode IndividualReference --SearchMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1387 SimilaritySearch --BitVectorComparisonMode TanimotoSimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1388 --ReferenceColMode ColLabel --ReferenceFingerprintsCol Fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1389 --ReferenceCompoundIDCol CompoundID --DatabaseColMode Collabel

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1390 --DatabaseCompoundIDCol CompoundID --DatabaseFingerprintsCol

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1391 Fingerprints --SimilarityCutoff 0.85 --SimilarCountMode PercentSimilar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1392 --PercentSimilarMolecules 2 -o

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1393 ReferenceSampleFPHex.csv DatabaseSampleFPHex.csv

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1394

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1395 To perform similarity search using Tanimoto coefficient by treating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1396 reference molecules as individual molecules to find top 50 most similar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1397 database molecules for each reference molecule with application of

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1398 similarity cutoff of 0.85 to supported fingerprints strings data in SD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1399 fingerprints files present in specific data fields and create both

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1400 ReferenceFPHexSimilaritySearching.csv and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1401 ReferenceFPHexSimilaritySearching.sdf files containing reference and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1402 database compoundIDs retrieved from specific data fields, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1403

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1404 % SimilaritySearchingFingerprints.pl --mode IndividualReference --SearchMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1405 SimilaritySearch --BitVectorComparisonMode TanimotoSimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1406 --ReferenceFingerprintsField Fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1407 --DatabaseFingerprintsField Fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1408 --ReferenceCompoundIDMode DataField --ReferenceCompoundIDField CmpdID

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1409 --DatabaseCompoundIDMode DataField --DatabaseCompoundIDField CmpdID

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1410 --SimilarityCutoff 0.85 --SimilarCountMode NumOfSimilar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1411 --NumOfSimilarMolecules 50 --output both -o

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1412 ReferenceSampleFPHex.sdf DatabaseSampleFPHex.sdf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1413

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1414 To perform similarity search using Tanimoto coefficient by treating

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1415 reference molecules as individual molecules to find 1 percent of most

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1416 similar database molecules for each reference molecule with application

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1417 of similarity cutoff to supported fingerprints strings data in SD

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1418 fingerprints files present in specific data field labels, and create

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1419 both ReferenceFPHexSimilaritySearching.csv

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1420 ReferenceFPHexSimilaritySearching.sdf files containing reference and

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1421 database compound IDs retrieved from specific data field labels along

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1422 with other specific data for database molecules, type:

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1423

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1424 % SimilaritySearchingFingerprints.pl --mode IndividualReference --SearchMode

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1425 SimilaritySearch --BitVectorComparisonMode TanimotoSimilarity

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1426 --ReferenceFingerprintsField Fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1427 --DatabaseFingerprintsField Fingerprints

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1428 --ReferenceCompoundIDMode DataField --ReferenceCompoundIDField CmpdID

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1429 --DatabaseCompoundIDMode DataField --DatabaseCompoundIDField CmpdID

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1430 --DatabaseDataFieldsMode Specify --DatabaseDataFields "TPSA,SLogP"

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1431 --SimilarityCutoff 0.75 --SimilarCountMode PercentSimilar

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1432 --PercentSimilarMolecules 1 --output both --OutDelim comma --quote Yes

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1433 --precision 3 -o ReferenceSampleFPHex.sdf DatabaseSampleFPHex.sdf

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1434

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1435 AUTHOR

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1436 Manish Sud <msud@san.rr.com>

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1437

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1438 SEE ALSO

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1439 InfoFingerprintsFiles.pl, SimilarityMatricesFingerprints.pl,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1440 AtomNeighborhoodsFingerprints.pl, ExtendedConnectivityFingerprints.pl,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1441 MACCSKeysFingerprints.pl, PathLengthFingerprints.pl,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1442 TopologicalAtomPairsFingerprints.pl,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1443 TopologicalAtomTorsionsFingerprints.pl,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1444 TopologicalPharmacophoreAtomPairsFingerprints.pl,

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1445 TopologicalPharmacophoreAtomTripletsFingerprints.pl

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1446

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1447 COPYRIGHT

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1449

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1450 This file is part of MayaChemTools.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1451

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1452 MayaChemTools is free software; you can redistribute it and/or modify it

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1453 under the terms of the GNU Lesser General Public License as published by

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1454 the Free Software Foundation; either version 3 of the License, or (at

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1455 your option) any later version.

4816e4a8ae95 Uploaded

deepakjadmin

parents:

diff changeset

1456

Mercurial > repos > deepakjadmin > mayatool3_test2

annotate docs/scripts/txt/SimilaritySearchingFingerprints.txt @ 0:4816e4a8ae95 draft default tip