chemfp: chemfp_clustering/old/butina_clustering

annotate chemfp_clustering/old/butina_clustering_old.py @ 28:f874af3cf8df

ChemicalToolBoX update.

author	Bjoern Gruening <bjoern.gruening@gmail.com>
date	Tue, 23 Jul 2013 00:54:07 +0200
parents	438bc12d591b
children

rev	line source
6 438bc12d591b Uploaded bgruening parents: diff changeset	1 #!/usr/bin/env python
438bc12d591b Uploaded bgruening parents: diff changeset	2 """
438bc12d591b Uploaded bgruening parents: diff changeset	3 Modified version of code examples from the chemfp project.
438bc12d591b Uploaded bgruening parents: diff changeset	4 http://code.google.com/p/chem-fingerprints/
438bc12d591b Uploaded bgruening parents: diff changeset	5 Thanks to Andrew Dalke of Andrew Dalke Scientific!
438bc12d591b Uploaded bgruening parents: diff changeset	6 """
438bc12d591b Uploaded bgruening parents: diff changeset	7
438bc12d591b Uploaded bgruening parents: diff changeset	8 import chemfp
438bc12d591b Uploaded bgruening parents: diff changeset	9 import sys
438bc12d591b Uploaded bgruening parents: diff changeset	10 import os
438bc12d591b Uploaded bgruening parents: diff changeset	11 import tempfile
438bc12d591b Uploaded bgruening parents: diff changeset	12
438bc12d591b Uploaded bgruening parents: diff changeset	13 temp_file = tempfile.NamedTemporaryFile()
438bc12d591b Uploaded bgruening parents: diff changeset	14 temp_link = "%s.%s" % (temp_file.name, 'fps')
438bc12d591b Uploaded bgruening parents: diff changeset	15 temp_file.close()
438bc12d591b Uploaded bgruening parents: diff changeset	16 os.system('ln -s %s %s' % (os.path.realpath(sys.argv[1]), temp_link) )
438bc12d591b Uploaded bgruening parents: diff changeset	17
438bc12d591b Uploaded bgruening parents: diff changeset	18
438bc12d591b Uploaded bgruening parents: diff changeset	19 chemfp_fingerprint_file = temp_link
438bc12d591b Uploaded bgruening parents: diff changeset	20 tanimoto_threshold = float(sys.argv[2])
438bc12d591b Uploaded bgruening parents: diff changeset	21 outfile = sys.argv[3]
438bc12d591b Uploaded bgruening parents: diff changeset	22 processors = int(sys.argv[4])
438bc12d591b Uploaded bgruening parents: diff changeset	23
438bc12d591b Uploaded bgruening parents: diff changeset	24
438bc12d591b Uploaded bgruening parents: diff changeset	25 def get_hit_indicies(hits):
438bc12d591b Uploaded bgruening parents: diff changeset	26 return [id for (id, score) in hits]
438bc12d591b Uploaded bgruening parents: diff changeset	27
438bc12d591b Uploaded bgruening parents: diff changeset	28 out = open(outfile, 'w')
438bc12d591b Uploaded bgruening parents: diff changeset	29 dataset = chemfp.load_fingerprints( chemfp_fingerprint_file )
438bc12d591b Uploaded bgruening parents: diff changeset	30
438bc12d591b Uploaded bgruening parents: diff changeset	31 chemfp.set_num_threads( processors )
438bc12d591b Uploaded bgruening parents: diff changeset	32 search = dataset.threshold_tanimoto_search_arena(dataset, threshold = tanimoto_threshold)
438bc12d591b Uploaded bgruening parents: diff changeset	33 #search = chemfp.search.threshold_tanimoto_search_symmetric (dataset, threshold = tanimoto_threshold)
438bc12d591b Uploaded bgruening parents: diff changeset	34
438bc12d591b Uploaded bgruening parents: diff changeset	35 # Reorder so the centroid with the most hits comes first.
438bc12d591b Uploaded bgruening parents: diff changeset	36 # (That's why I do a reverse search.)
438bc12d591b Uploaded bgruening parents: diff changeset	37 # Ignore the arbitrariness of breaking ties by fingerprint index
438bc12d591b Uploaded bgruening parents: diff changeset	38 results = sorted( ( (len(hits), i, hits) for (i, hits) in enumerate(search.iter_indices_and_scores()) ),reverse=True)
438bc12d591b Uploaded bgruening parents: diff changeset	39
438bc12d591b Uploaded bgruening parents: diff changeset	40
438bc12d591b Uploaded bgruening parents: diff changeset	41 # Determine the true/false singletons and the clusters
438bc12d591b Uploaded bgruening parents: diff changeset	42 true_singletons = []
438bc12d591b Uploaded bgruening parents: diff changeset	43 false_singletons = []
438bc12d591b Uploaded bgruening parents: diff changeset	44 clusters = []
438bc12d591b Uploaded bgruening parents: diff changeset	45
438bc12d591b Uploaded bgruening parents: diff changeset	46 seen = set()
438bc12d591b Uploaded bgruening parents: diff changeset	47
438bc12d591b Uploaded bgruening parents: diff changeset	48 for (size, fp_idx, hits) in results:
438bc12d591b Uploaded bgruening parents: diff changeset	49 if fp_idx in seen:
438bc12d591b Uploaded bgruening parents: diff changeset	50 # Can't use a centroid which is already assigned
438bc12d591b Uploaded bgruening parents: diff changeset	51 continue
438bc12d591b Uploaded bgruening parents: diff changeset	52 seen.add(fp_idx)
438bc12d591b Uploaded bgruening parents: diff changeset	53 print size, fp_idx, hits
438bc12d591b Uploaded bgruening parents: diff changeset	54 if size == 1:
438bc12d591b Uploaded bgruening parents: diff changeset	55 # The only fingerprint in the exclusion sphere is itself
438bc12d591b Uploaded bgruening parents: diff changeset	56 true_singletons.append(fp_idx)
438bc12d591b Uploaded bgruening parents: diff changeset	57 continue
438bc12d591b Uploaded bgruening parents: diff changeset	58
438bc12d591b Uploaded bgruening parents: diff changeset	59 members = get_hit_indicies(hits)
438bc12d591b Uploaded bgruening parents: diff changeset	60 # Figure out which ones haven't yet been assigned
438bc12d591b Uploaded bgruening parents: diff changeset	61 unassigned = [target_idx for target_idx in members if target_idx not in seen]
438bc12d591b Uploaded bgruening parents: diff changeset	62
438bc12d591b Uploaded bgruening parents: diff changeset	63 if not unassigned:
438bc12d591b Uploaded bgruening parents: diff changeset	64 false_singletons.append(fp_idx)
438bc12d591b Uploaded bgruening parents: diff changeset	65 continue
438bc12d591b Uploaded bgruening parents: diff changeset	66
438bc12d591b Uploaded bgruening parents: diff changeset	67 # this is a new cluster
438bc12d591b Uploaded bgruening parents: diff changeset	68 clusters.append( (fp_idx, unassigned) )
438bc12d591b Uploaded bgruening parents: diff changeset	69 seen.update(unassigned)
438bc12d591b Uploaded bgruening parents: diff changeset	70
438bc12d591b Uploaded bgruening parents: diff changeset	71 len_cluster = len(clusters)
438bc12d591b Uploaded bgruening parents: diff changeset	72 #out.write( "#%s true singletons: %s\n" % ( len(true_singletons), " ".join(sorted(dataset.ids[idx] for idx in true_singletons)) ) )
438bc12d591b Uploaded bgruening parents: diff changeset	73 #out.write( "#%s false singletons: %s\n" % ( len(false_singletons), " ".join(sorted(dataset.ids[idx] for idx in false_singletons)) ) )
438bc12d591b Uploaded bgruening parents: diff changeset	74
438bc12d591b Uploaded bgruening parents: diff changeset	75 out.write( "#%s true singletons\n" % len(true_singletons) )
438bc12d591b Uploaded bgruening parents: diff changeset	76 out.write( "#%s false singletons\n" % len(false_singletons) )
438bc12d591b Uploaded bgruening parents: diff changeset	77 out.write( "#clusters: %s\n" % len_cluster )
438bc12d591b Uploaded bgruening parents: diff changeset	78
438bc12d591b Uploaded bgruening parents: diff changeset	79 # Sort so the cluster with the most compounds comes first,
438bc12d591b Uploaded bgruening parents: diff changeset	80 # then by alphabetically smallest id
438bc12d591b Uploaded bgruening parents: diff changeset	81 def cluster_sort_key(cluster):
438bc12d591b Uploaded bgruening parents: diff changeset	82 centroid_idx, members = cluster
438bc12d591b Uploaded bgruening parents: diff changeset	83 return -len(members), dataset.ids[centroid_idx]
438bc12d591b Uploaded bgruening parents: diff changeset	84
438bc12d591b Uploaded bgruening parents: diff changeset	85 clusters.sort(key=cluster_sort_key)
438bc12d591b Uploaded bgruening parents: diff changeset	86
438bc12d591b Uploaded bgruening parents: diff changeset	87
438bc12d591b Uploaded bgruening parents: diff changeset	88 for centroid_idx, members in clusters:
438bc12d591b Uploaded bgruening parents: diff changeset	89 centroid_name = dataset.ids[centroid_idx]
438bc12d591b Uploaded bgruening parents: diff changeset	90 out.write("%s\t%s\t%s\n" % (centroid_name, len(members), " ".join(sorted(dataset.ids[idx] for idx in members))))
438bc12d591b Uploaded bgruening parents: diff changeset	91 #ToDo: len(members) need to be some biggest top 90% or something ...
438bc12d591b Uploaded bgruening parents: diff changeset	92
438bc12d591b Uploaded bgruening parents: diff changeset	93 for idx in sorted(true_singletons):
438bc12d591b Uploaded bgruening parents: diff changeset	94 out.write("%s\t%s\n" % (dataset.ids[idx], 0))
438bc12d591b Uploaded bgruening parents: diff changeset	95
438bc12d591b Uploaded bgruening parents: diff changeset	96 out.close()
438bc12d591b Uploaded bgruening parents: diff changeset	97 os.remove( temp_link )

Mercurial > repos > bgruening > chemfp

annotate chemfp_clustering/old/butina_clustering_old.py @ 28:f874af3cf8df