Repository 'seq_rename'
hg clone https://testtoolshed.g2.bx.psu.edu/repos/peterjc/seq_rename

Changeset 12:311012138753 (2013-09-26)
Previous changeset 11:5454df5d9dfc (2013-09-17) Next changeset 13:d08767ae73ce (2013-09-27)
Commit message:
Uploaded v0.0.4h, renamed folder and README file
added:
tools/seq_rename/README.rst
tools/seq_rename/repository_dependencies.xml
tools/seq_rename/seq_rename.py
tools/seq_rename/seq_rename.xml
removed:
tools/filters/repository_dependencies.xml
tools/filters/seq_rename.py
tools/filters/seq_rename.rst
tools/filters/seq_rename.xml
b
diff -r 5454df5d9dfc -r 311012138753 tools/filters/repository_dependencies.xml
--- a/tools/filters/repository_dependencies.xml Tue Sep 17 11:58:47 2013 -0400
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,6 +0,0 @@
-<?xml version="1.0"?>
-<repositories description="This requires Biopython as a dependency.">
-<!-- Leave out the tool shed and revision to get the current
-     tool shed and latest revision at the time of upload -->
-<repository changeset_revision="2f6c871cfa35" name="package_biopython_1_61" owner="biopython" toolshed="http://testtoolshed.g2.bx.psu.edu" />
-</repositories>
b
diff -r 5454df5d9dfc -r 311012138753 tools/filters/seq_rename.py
--- a/tools/filters/seq_rename.py Tue Sep 17 11:58:47 2013 -0400
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
[
@@ -1,145 +0,0 @@
-#!/usr/bin/env python
-"""Rename FASTA, QUAL, FASTQ or SSF sequences with ID mapping from tabular file.
-
-Takes six command line options, tabular filename, current (old)  ID column
-number (using one based counting), new ID column number (also using one based
-counting), input sequence filename, input type (e.g. FASTA or SFF) and the
-output filename (same format as input sequence file).
-
-When selecting from an SFF file, any Roche XML manifest in the input file is
-preserved in both output files.
-
-This tool is a short Python script which requires Biopython 1.54 or later
-for SFF file support. If you use this tool in scientific work leading to a
-publication, please cite the Biopython application note:
-
-Cock et al 2009. Biopython: freely available Python tools for computational
-molecular biology and bioinformatics. Bioinformatics 25(11) 1422-3.
-http://dx.doi.org/10.1093/bioinformatics/btp163 pmid:19304878.
-
-This script is copyright 2011-2013 by Peter Cock, The James Hutton Institute UK.
-All rights reserved. See accompanying text file for licence details (MIT
-license).
-
-This is version 0.0.4 of the script.
-"""
-import sys
-
-if "-v" in sys.argv or "--version" in sys.argv:
-    print "v0.0.4"
-    sys.exit(0)
-
-def stop_err(msg, err=1):
-    sys.stderr.write(msg.rstrip() + "\n")
-    sys.exit(err)
-
-#Parse Command Line
-try:
-    tabular_file, old_col_arg, new_col_arg, in_file, seq_format, out_file = sys.argv[1:]
-except ValueError:
-    stop_err("Expected six arguments (tabular file, old col, new col, input file, format, output file), got %i:\n%s" % (len(sys.argv)-1, " ".join(sys.argv)))
-
-try:
-    if old_col_arg.startswith("c"):
-        old_column = int(old_col_arg[1:])-1
-    else:
-        old_column = int(old_col_arg)-1
-except ValueError:
-    stop_err("Expected column number, got %s" % old_col_arg)
-try:
-    if old_col_arg.startswith("c"):
-        new_column = int(new_col_arg[1:])-1
-    else:
-        new_column = int(new_col_arg)-1
-except ValueError:
-    stop_err("Expected column number, got %s" % new_col_arg)
-if old_column == new_column:
-    stop_err("Old and new column arguments are the same!")
-
-def parse_ids(tabular_file, old_col, new_col):
-    """Read tabular file and record all specified ID mappings."""
-    handle = open(tabular_file, "rU")
-    for line in handle:
-        if not line.startswith("#"):
-            parts = line.rstrip("\n").split("\t")
-            yield parts[old_col].strip(), parts[new_col].strip()
-    handle.close()
-
-#Load the rename mappings
-rename = dict(parse_ids(tabular_file, old_column, new_column))
-print "Loaded %i ID mappings" % len(rename)
-              
-#Rewrite the sequence file
-if seq_format.lower()=="sff":
-    #Use Biopython for this format
-    renamed = 0
-    def rename_seqrecords(records, mapping):
-        global renamed #nasty, but practical!
-        for record in records:
-            try:
-                record.id = mapping[record.id]
-                renamed += 1
-            except KeyError:
-                pass
-            yield record
-                                                                
-    try:
-        from Bio.SeqIO.SffIO import SffIterator, SffWriter
-    except ImportError:
-        stop_err("Requires Biopython 1.54 or later")
-
-    try:
-        from Bio.SeqIO.SffIO import ReadRocheXmlManifest
-    except ImportError:
-        #Prior to Biopython 1.56 this was a private function
-        from Bio.SeqIO.SffIO import _sff_read_roche_index_xml as ReadRocheXmlManifest
-
-    in_handle = open(in_file, "rb") #must be binary mode!
-    try:
-        manifest = ReadRocheXmlManifest(in_handle)
-    except ValueError:
-        manifest = None
-    out_handle = open(out_file, "wb")
-    writer = SffWriter(out_handle, xml=manifest)
-    in_handle.seek(0) #start again after getting manifest
-    count = writer.write_file(rename_seqrecords(SffIterator(in_handle), rename))
-    out_handle.close()
-    in_handle.close()
-else:
-    #Use Galaxy for FASTA, QUAL or FASTQ
-    if seq_format.lower() in ["fasta", "csfasta"] \
-    or seq_format.lower().startswith("qual"):
-        from galaxy_utils.sequence.fasta import fastaReader, fastaWriter
-        reader = fastaReader(open(in_file, "rU"))
-        writer = fastaWriter(open(out_file, "w"))
-        marker = ">"
-    elif seq_format.lower().startswith("fastq"):
-        from galaxy_utils.sequence.fastq import fastqReader, fastqWriter
-        reader = fastqReader(open(in_file, "rU"))
-        writer = fastqWriter(open(out_file, "w"))
-        marker = "@"
-    else:
-        stop_err("Unsupported file type %r" % seq_format)
-    #Now do the renaming
-    count = 0
-    renamed = 0
-    for record in reader:
-        #The [1:] is because the fastaReader leaves the > on the identifier,
-        #likewise the fastqReader leaves the @ on the identifier
-        try:
-            idn, descr = record.identifier[1:].split(None, 1)
-        except ValueError:
-            idn = record.identifier[1:]
-            descr = None
-        if idn in rename:
-            if descr:
-                record.identifier = "%s%s %s" % (marker, rename[idn], descr)
-            else:
-                record.identifier = "%s%s" % (marker, rename[idn])
-            renamed += 1
-        writer.write(record)
-        count += 1
-    writer.close()
-    reader.close()
-
-print "Renamed %i out of %i records" % (renamed, count)
b
diff -r 5454df5d9dfc -r 311012138753 tools/filters/seq_rename.rst
--- a/tools/filters/seq_rename.rst Tue Sep 17 11:58:47 2013 -0400
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,121 +0,0 @@
-Galaxy tool to rename FASTA, QUAL, FASTQ or SFF sequences
-=========================================================
-
-This tool is copyright 2011-2013 by Peter Cock, The James Hutton Institute
-(formerly SCRI, Scottish Crop Research Institute), UK. All rights reserved.
-See the licence text below.
-
-This tool is a short Python script (using Biopython library functions) to rename
-sequences from a FASTA, QUAL, FASTQ, or SFF file based on an ID mapping gives as
-two columns of a tabular file. The output order follows that of the sequence file,
-and if there are duplicates in the input sequence file, there will be duplicates
-in the output sequence file.
-
-This tool is available from the Galaxy Tool Shed,
-
-* http://toolshed.g2.bx.psu.edu/view/peterjc/seq_rename
-
-See also the sister tools to filter or select sequence files according to IDs
-from column(s) of tabular file:
-
-* http://toolshed.g2.bx.psu.edu/view/peterjc/seq_filter_by_id
-* http://toolshed.g2.bx.psu.edu/view/peterjc/seq_select_by_id
-
-
-Automated Installation
-======================
-
-This should be straightforward using the Galaxy Tool Shed, which should be
-able to automatically install the dependency on Biopython, and then install
-this tool and run its unit tests.
-
-
-Manual Installation
-===================
-
-There are just two files to install to use this tool from within Galaxy:
-
-* seq_rename.py (the Python script)
-* seq_rename.xml (the Galaxy tool definition)
-
-The suggested location is in the Galaxy folder tools/filters next to the tool
-for calling sff_extract.py for converting SFF to FASTQ or FASTA + QUAL.
-
-You will also need to modify the tools_conf.xml file to tell Galaxy to offer the
-tool. One suggested location is in the filters section. Simply add the line::
-
-    <tool file="filters/seq_rename.xml" />
-
-If you wish to run the unit tests, also add this to tools_conf.xml.sample
-and move/copy the test-data files under Galaxy's test-data folder. Then::
-
-    $ ./run_functional_tests.sh -id seq_rename
-
-You will also need to install Biopython 1.54 or later. That's it.
-
-
-History
-=======
-
-======= ======================================================================
-Version Changes
-------- ----------------------------------------------------------------------
-v0.0.1  - Initial version.
-v0.0.2  - Record script version when run from Galaxy.
-        - Add unit test.
-        - Check for errors using Python script's return code.
-v0.0.3  - Link to Tool Shed added to help text and this documentation.
-v0.0.4  - Automated installation of Biopython dependency.
-        - Use reStructuredText for this README file.
-        - Adopt standard MIT License.
-        - Updated citation information (Cock et al. 2013).
-        - Development moved to GitHub, https://github.com/peterjc/pico_galaxy
-======= ======================================================================
-
-
-Developers
-==========
-
-This script and related tools were initially developed on the following hg branch:
-http://bitbucket.org/peterjc/galaxy-central/src/tools
-
-Development has now moved to a dedicated GitHub repository:
-https://github.com/peterjc/pico_galaxy/tree/master/tools
-
-For making the "Galaxy Tool Shed" http://toolshed.g2.bx.psu.edu/ tarball use
-the following command from the Galaxy root folder::
-
-    $ tar -czf seq_rename.tar.gz tools/filters/seq_rename.* tools/filters/repository_dependencies.xml test-data/four_human_proteins.fasta test-data/four_human_proteins.rename.tabular test-data/four_human_proteins.rename.fasta
-
-Check this worked::
-
-    $ tar -tzf seq_rename.tar.gz
-    tools/filter/seq_rename.py
-    tools/filter/seq_rename.rst
-    tools/filter/seq_rename.xml
-    tools/filters/repository_dependencies.xml
-    test-data/four_human_proteins.fasta
-    test-data/four_human_proteins.rename.tabular
-    test-data/four_human_proteins.rename.fasta
-
-
-Licence (MIT)
-=============
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in
-all copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
-THE SOFTWARE.
b
diff -r 5454df5d9dfc -r 311012138753 tools/filters/seq_rename.xml
--- a/tools/filters/seq_rename.xml Tue Sep 17 11:58:47 2013 -0400
+++ /dev/null Thu Jan 01 00:00:00 1970 +0000
b
@@ -1,85 +0,0 @@
-<tool id="seq_rename" name="Rename sequences" version="0.0.4">
- <description>with ID mapping from a tabular file</description>
- <requirements>
- <requirement type="package" version="1.61">biopython</requirement>
- <requirement type="python-module">Bio</requirement>
- </requirements>
- <version_commmand interpreter="python">seq_rename.py --version</version_commmand>
- <command interpreter="python">
-seq_rename.py $input_tabular $old_column $new_column $input_file $input_file.ext $output_file
- </command>
- <stdio>
- <!-- Anything other than zero is an error -->
- <exit_code range="1:" />
- <exit_code range=":-1" />
- </stdio>
- <inputs>
- <param name="input_file" type="data" format="fasta,qual,fastq,sff" label="Sequence file" help="FASTA, QUAL, FASTQ, or SFF format." />
- <param name="input_tabular" type="data" format="tabular" label="Tabular file containing sequence identifiers"/>
- <param name="old_column" type="data_column" data_ref="input_tabular" multiple="False" numerical="False" label="Column containing current (old) sequence identifiers"/>
-                <param name="new_column" type="data_column" data_ref="input_tabular" multiple="False" numerical="False" label="Column containing new sequence identifiers"/>
- </inputs>
- <outputs>
- <data name="output_file" format="fasta" label="Renamed ${on_string}">
- <!-- TODO - Replace this with format="input:input_fastq" if/when that works -->
- <change_format>
- <when input_dataset="input_file" attribute="extension" value="sff" format="sff" />
- <when input_dataset="input_file" attribute="extension" value="fastq" format="fastq" />
- <when input_dataset="input_file" attribute="extension" value="fastqsanger" format="fastqsanger" />
- <when input_dataset="input_file" attribute="extension" value="fastqsolexa" format="fastqsolexa" />
- <when input_dataset="input_file" attribute="extension" value="fastqillumina" format="fastqillumina" />
- <when input_dataset="input_file" attribute="extension" value="fastqcssanger" format="fastqcssanger" />
- </change_format>
- </data>
- </outputs>
- <tests>
- <test>
- <param name="input_file" value="four_human_proteins.fasta" ftype="fasta" />
- <param name="input_tabular" value="four_human_proteins.rename.tabular" ftype="tabular" />
- <param name="old_column" value="1" />
- <param name="new_column" value="2" />
- <output name="output_file" file="four_human_proteins.rename.fasta" ftype="fasta" />
- </test>
- <test>
- <param name="input_file" value="four_human_proteins.fasta" ftype="fasta" />
- <param name="input_tabular" value="four_human_proteins.rename.tabular" ftype="tabular" />
- <param name="old_column" value="c1" />
- <param name="new_column" value="c2" />
- <output name="output_file" file="four_human_proteins.rename.fasta" ftype="fasta" />
- </test>
- </tests>
- <help>
-
-**What it does**
-
-Takes a FASTA, QUAL, FASTQ or Standard Flowgram Format (SFF) file and produces a
-new sequence file (of the same format) where the sequence identifiers have been
-renamed according two the specified columns a the tabular file.
-
-WARNING: If you have any duplicates in the intput sequence file, you will still
-have duplicate sequences in the output.
-
-WARNING: If the tabular file has more than one new name for any old ID, the
-last one is used.
-
-**References**
-
-If you use this Galaxy tool in work leading to a scientific publication please
-cite the following papers:
-
-Peter J.A. Cock, Björn A. Grüning, Konrad Paszkiewicz and Leighton Pritchard (2013).
-Galaxy tools and workflows for sequence analysis with applications
-in molecular plant pathology. PeerJ 1:e167
-http://dx.doi.org/10.7717/peerj.167
-
-This tool uses Biopython to read and write SFF files, so you may also wish to
-cite the Biopython application note (and Galaxy too of course):
-
-Cock et al (2009). Biopython: freely available Python tools for computational
-molecular biology and bioinformatics. Bioinformatics 25(11) 1422-3.
-http://dx.doi.org/10.1093/bioinformatics/btp163 pmid:19304878.
-
-This tool is available to install into other Galaxy Instances via the Galaxy
-Tool Shed at http://toolshed.g2.bx.psu.edu/view/peterjc/seq_rename
- </help>
-</tool>
b
diff -r 5454df5d9dfc -r 311012138753 tools/seq_rename/README.rst
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tools/seq_rename/README.rst Thu Sep 26 10:07:49 2013 -0400
b
@@ -0,0 +1,121 @@
+Galaxy tool to rename FASTA, QUAL, FASTQ or SFF sequences
+=========================================================
+
+This tool is copyright 2011-2013 by Peter Cock, The James Hutton Institute
+(formerly SCRI, Scottish Crop Research Institute), UK. All rights reserved.
+See the licence text below.
+
+This tool is a short Python script (using Biopython library functions) to rename
+sequences from a FASTA, QUAL, FASTQ, or SFF file based on an ID mapping gives as
+two columns of a tabular file. The output order follows that of the sequence file,
+and if there are duplicates in the input sequence file, there will be duplicates
+in the output sequence file.
+
+This tool is available from the Galaxy Tool Shed,
+
+* http://toolshed.g2.bx.psu.edu/view/peterjc/seq_rename
+
+See also the sister tools to filter or select sequence files according to IDs
+from column(s) of tabular file:
+
+* http://toolshed.g2.bx.psu.edu/view/peterjc/seq_filter_by_id
+* http://toolshed.g2.bx.psu.edu/view/peterjc/seq_select_by_id
+
+
+Automated Installation
+======================
+
+This should be straightforward using the Galaxy Tool Shed, which should be
+able to automatically install the dependency on Biopython, and then install
+this tool and run its unit tests.
+
+
+Manual Installation
+===================
+
+There are just two files to install to use this tool from within Galaxy:
+
+* seq_rename.py (the Python script)
+* seq_rename.xml (the Galaxy tool definition)
+
+The suggested location is in a dedicated tools/seq_rename folder.
+
+You will also need to modify the tools_conf.xml file to tell Galaxy to offer the
+tool. One suggested location is in the filters section. Simply add the line::
+
+    <tool file="seq_rename/seq_rename.xml" />
+
+If you wish to run the unit tests, also add this to tools_conf.xml.sample
+and move/copy the test-data files under Galaxy's test-data folder. Then::
+
+    $ ./run_functional_tests.sh -id seq_rename
+
+You will also need to install Biopython 1.54 or later. That's it.
+
+
+History
+=======
+
+======= ======================================================================
+Version Changes
+------- ----------------------------------------------------------------------
+v0.0.1  - Initial version.
+v0.0.2  - Record script version when run from Galaxy.
+        - Add unit test.
+        - Check for errors using Python script's return code.
+v0.0.3  - Link to Tool Shed added to help text and this documentation.
+v0.0.4  - Automated installation of Biopython dependency.
+        - Use reStructuredText for this README file.
+        - Adopt standard MIT License.
+        - Updated citation information (Cock et al. 2013).
+        - Development moved to GitHub, https://github.com/peterjc/pico_galaxy
+        - Renamed folder and adopted README.rst naming.
+======= ======================================================================
+
+
+Developers
+==========
+
+This script and related tools were initially developed on the following hg branch:
+http://bitbucket.org/peterjc/galaxy-central/src/tools
+
+Development has now moved to a dedicated GitHub repository:
+https://github.com/peterjc/pico_galaxy/tree/master/tools
+
+For making the "Galaxy Tool Shed" http://toolshed.g2.bx.psu.edu/ tarball use
+the following command from the Galaxy root folder::
+
+    $ tar -czf seq_rename.tar.gz tools/seq_rename/README.rst tools/seq_rename/seq_rename.* tools/seq_rename/repository_dependencies.xml test-data/four_human_proteins.fasta test-data/four_human_proteins.rename.tabular test-data/four_human_proteins.rename.fasta
+
+Check this worked::
+
+    $ tar -tzf seq_rename.tar.gz
+    tools/seq_rename/README.rst
+    tools/seq_rename/seq_rename.py
+    tools/seq_rename/seq_rename.xml
+    tools/seq_rename/repository_dependencies.xml
+    test-data/four_human_proteins.fasta
+    test-data/four_human_proteins.rename.tabular
+    test-data/four_human_proteins.rename.fasta
+
+
+Licence (MIT)
+=============
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in
+all copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+THE SOFTWARE.
b
diff -r 5454df5d9dfc -r 311012138753 tools/seq_rename/repository_dependencies.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tools/seq_rename/repository_dependencies.xml Thu Sep 26 10:07:49 2013 -0400
b
@@ -0,0 +1,6 @@
+<?xml version="1.0"?>
+<repositories description="This requires Biopython as a dependency.">
+<!-- Leave out the tool shed and revision to get the current
+     tool shed and latest revision at the time of upload -->
+<repository changeset_revision="2f6c871cfa35" name="package_biopython_1_61" owner="biopython" toolshed="http://testtoolshed.g2.bx.psu.edu" />
+</repositories>
b
diff -r 5454df5d9dfc -r 311012138753 tools/seq_rename/seq_rename.py
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tools/seq_rename/seq_rename.py Thu Sep 26 10:07:49 2013 -0400
[
@@ -0,0 +1,145 @@
+#!/usr/bin/env python
+"""Rename FASTA, QUAL, FASTQ or SSF sequences with ID mapping from tabular file.
+
+Takes six command line options, tabular filename, current (old)  ID column
+number (using one based counting), new ID column number (also using one based
+counting), input sequence filename, input type (e.g. FASTA or SFF) and the
+output filename (same format as input sequence file).
+
+When selecting from an SFF file, any Roche XML manifest in the input file is
+preserved in both output files.
+
+This tool is a short Python script which requires Biopython 1.54 or later
+for SFF file support. If you use this tool in scientific work leading to a
+publication, please cite the Biopython application note:
+
+Cock et al 2009. Biopython: freely available Python tools for computational
+molecular biology and bioinformatics. Bioinformatics 25(11) 1422-3.
+http://dx.doi.org/10.1093/bioinformatics/btp163 pmid:19304878.
+
+This script is copyright 2011-2013 by Peter Cock, The James Hutton Institute UK.
+All rights reserved. See accompanying text file for licence details (MIT
+license).
+
+This is version 0.0.4 of the script.
+"""
+import sys
+
+if "-v" in sys.argv or "--version" in sys.argv:
+    print "v0.0.4"
+    sys.exit(0)
+
+def stop_err(msg, err=1):
+    sys.stderr.write(msg.rstrip() + "\n")
+    sys.exit(err)
+
+#Parse Command Line
+try:
+    tabular_file, old_col_arg, new_col_arg, in_file, seq_format, out_file = sys.argv[1:]
+except ValueError:
+    stop_err("Expected six arguments (tabular file, old col, new col, input file, format, output file), got %i:\n%s" % (len(sys.argv)-1, " ".join(sys.argv)))
+
+try:
+    if old_col_arg.startswith("c"):
+        old_column = int(old_col_arg[1:])-1
+    else:
+        old_column = int(old_col_arg)-1
+except ValueError:
+    stop_err("Expected column number, got %s" % old_col_arg)
+try:
+    if old_col_arg.startswith("c"):
+        new_column = int(new_col_arg[1:])-1
+    else:
+        new_column = int(new_col_arg)-1
+except ValueError:
+    stop_err("Expected column number, got %s" % new_col_arg)
+if old_column == new_column:
+    stop_err("Old and new column arguments are the same!")
+
+def parse_ids(tabular_file, old_col, new_col):
+    """Read tabular file and record all specified ID mappings."""
+    handle = open(tabular_file, "rU")
+    for line in handle:
+        if not line.startswith("#"):
+            parts = line.rstrip("\n").split("\t")
+            yield parts[old_col].strip(), parts[new_col].strip()
+    handle.close()
+
+#Load the rename mappings
+rename = dict(parse_ids(tabular_file, old_column, new_column))
+print "Loaded %i ID mappings" % len(rename)
+              
+#Rewrite the sequence file
+if seq_format.lower()=="sff":
+    #Use Biopython for this format
+    renamed = 0
+    def rename_seqrecords(records, mapping):
+        global renamed #nasty, but practical!
+        for record in records:
+            try:
+                record.id = mapping[record.id]
+                renamed += 1
+            except KeyError:
+                pass
+            yield record
+                                                                
+    try:
+        from Bio.SeqIO.SffIO import SffIterator, SffWriter
+    except ImportError:
+        stop_err("Requires Biopython 1.54 or later")
+
+    try:
+        from Bio.SeqIO.SffIO import ReadRocheXmlManifest
+    except ImportError:
+        #Prior to Biopython 1.56 this was a private function
+        from Bio.SeqIO.SffIO import _sff_read_roche_index_xml as ReadRocheXmlManifest
+
+    in_handle = open(in_file, "rb") #must be binary mode!
+    try:
+        manifest = ReadRocheXmlManifest(in_handle)
+    except ValueError:
+        manifest = None
+    out_handle = open(out_file, "wb")
+    writer = SffWriter(out_handle, xml=manifest)
+    in_handle.seek(0) #start again after getting manifest
+    count = writer.write_file(rename_seqrecords(SffIterator(in_handle), rename))
+    out_handle.close()
+    in_handle.close()
+else:
+    #Use Galaxy for FASTA, QUAL or FASTQ
+    if seq_format.lower() in ["fasta", "csfasta"] \
+    or seq_format.lower().startswith("qual"):
+        from galaxy_utils.sequence.fasta import fastaReader, fastaWriter
+        reader = fastaReader(open(in_file, "rU"))
+        writer = fastaWriter(open(out_file, "w"))
+        marker = ">"
+    elif seq_format.lower().startswith("fastq"):
+        from galaxy_utils.sequence.fastq import fastqReader, fastqWriter
+        reader = fastqReader(open(in_file, "rU"))
+        writer = fastqWriter(open(out_file, "w"))
+        marker = "@"
+    else:
+        stop_err("Unsupported file type %r" % seq_format)
+    #Now do the renaming
+    count = 0
+    renamed = 0
+    for record in reader:
+        #The [1:] is because the fastaReader leaves the > on the identifier,
+        #likewise the fastqReader leaves the @ on the identifier
+        try:
+            idn, descr = record.identifier[1:].split(None, 1)
+        except ValueError:
+            idn = record.identifier[1:]
+            descr = None
+        if idn in rename:
+            if descr:
+                record.identifier = "%s%s %s" % (marker, rename[idn], descr)
+            else:
+                record.identifier = "%s%s" % (marker, rename[idn])
+            renamed += 1
+        writer.write(record)
+        count += 1
+    writer.close()
+    reader.close()
+
+print "Renamed %i out of %i records" % (renamed, count)
b
diff -r 5454df5d9dfc -r 311012138753 tools/seq_rename/seq_rename.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tools/seq_rename/seq_rename.xml Thu Sep 26 10:07:49 2013 -0400
b
@@ -0,0 +1,85 @@
+<tool id="seq_rename" name="Rename sequences" version="0.0.4">
+ <description>with ID mapping from a tabular file</description>
+ <requirements>
+ <requirement type="package" version="1.61">biopython</requirement>
+ <requirement type="python-module">Bio</requirement>
+ </requirements>
+ <version_commmand interpreter="python">seq_rename.py --version</version_commmand>
+ <command interpreter="python">
+seq_rename.py $input_tabular $old_column $new_column $input_file $input_file.ext $output_file
+ </command>
+ <stdio>
+ <!-- Anything other than zero is an error -->
+ <exit_code range="1:" />
+ <exit_code range=":-1" />
+ </stdio>
+ <inputs>
+ <param name="input_file" type="data" format="fasta,qual,fastq,sff" label="Sequence file" help="FASTA, QUAL, FASTQ, or SFF format." />
+ <param name="input_tabular" type="data" format="tabular" label="Tabular file containing sequence identifiers"/>
+ <param name="old_column" type="data_column" data_ref="input_tabular" multiple="False" numerical="False" label="Column containing current (old) sequence identifiers"/>
+                <param name="new_column" type="data_column" data_ref="input_tabular" multiple="False" numerical="False" label="Column containing new sequence identifiers"/>
+ </inputs>
+ <outputs>
+ <data name="output_file" format="fasta" label="Renamed ${on_string}">
+ <!-- TODO - Replace this with format="input:input_fastq" if/when that works -->
+ <change_format>
+ <when input_dataset="input_file" attribute="extension" value="sff" format="sff" />
+ <when input_dataset="input_file" attribute="extension" value="fastq" format="fastq" />
+ <when input_dataset="input_file" attribute="extension" value="fastqsanger" format="fastqsanger" />
+ <when input_dataset="input_file" attribute="extension" value="fastqsolexa" format="fastqsolexa" />
+ <when input_dataset="input_file" attribute="extension" value="fastqillumina" format="fastqillumina" />
+ <when input_dataset="input_file" attribute="extension" value="fastqcssanger" format="fastqcssanger" />
+ </change_format>
+ </data>
+ </outputs>
+ <tests>
+ <test>
+ <param name="input_file" value="four_human_proteins.fasta" ftype="fasta" />
+ <param name="input_tabular" value="four_human_proteins.rename.tabular" ftype="tabular" />
+ <param name="old_column" value="1" />
+ <param name="new_column" value="2" />
+ <output name="output_file" file="four_human_proteins.rename.fasta" ftype="fasta" />
+ </test>
+ <test>
+ <param name="input_file" value="four_human_proteins.fasta" ftype="fasta" />
+ <param name="input_tabular" value="four_human_proteins.rename.tabular" ftype="tabular" />
+ <param name="old_column" value="c1" />
+ <param name="new_column" value="c2" />
+ <output name="output_file" file="four_human_proteins.rename.fasta" ftype="fasta" />
+ </test>
+ </tests>
+ <help>
+
+**What it does**
+
+Takes a FASTA, QUAL, FASTQ or Standard Flowgram Format (SFF) file and produces a
+new sequence file (of the same format) where the sequence identifiers have been
+renamed according two the specified columns a the tabular file.
+
+WARNING: If you have any duplicates in the intput sequence file, you will still
+have duplicate sequences in the output.
+
+WARNING: If the tabular file has more than one new name for any old ID, the
+last one is used.
+
+**References**
+
+If you use this Galaxy tool in work leading to a scientific publication please
+cite the following papers:
+
+Peter J.A. Cock, Björn A. Grüning, Konrad Paszkiewicz and Leighton Pritchard (2013).
+Galaxy tools and workflows for sequence analysis with applications
+in molecular plant pathology. PeerJ 1:e167
+http://dx.doi.org/10.7717/peerj.167
+
+This tool uses Biopython to read and write SFF files, so you may also wish to
+cite the Biopython application note (and Galaxy too of course):
+
+Cock et al (2009). Biopython: freely available Python tools for computational
+molecular biology and bioinformatics. Bioinformatics 25(11) 1422-3.
+http://dx.doi.org/10.1093/bioinformatics/btp163 pmid:19304878.
+
+This tool is available to install into other Galaxy Instances via the Galaxy
+Tool Shed at http://toolshed.g2.bx.psu.edu/view/peterjc/seq_rename
+ </help>
+</tool>