bakta: bakta.xml comparison

comparison bakta.xml @ 3:eea334d9988b draft

planemo upload for repository https://github.com/galaxyproject/tools-iuc/blob/master/tools/bakta commit 73af464cc860250c3fa3dd433602283ab5a44f53-dirty

author	pimarin
date	Thu, 22 Dec 2022 15:01:43 +0000
parents	ca9e2125c5de
children	591cae6ef29d

comparison

equal deleted inserted replaced

-:ca9e2125c5de
+:eea334d9988b
-<?xml version="1.0" encoding="UTF-8"?>
+<tool id="bakta" name="Bakta" version="@TOOL_VERSION@+galaxy@VERSION_SUFFIX@" profile="@PROFILE@">
-<tool id="bakta" name="Bakta genome annotation" version="@TOOL_VERSION@+galaxy@VERSION_SUFFIX@" profile="@PROFILE@">
 <description>
-Bakta: rapid and standardized annotation of bacterial genomes via alignment-free sequence identification
+genome annotation via alignment-free sequence identification
 </description>
 <macros>
 <import>macro.xml</import>
 </macros>
 <expand macro='edam'/>
 <expand macro='xrefs'/>
 <expand macro="requirements"/>
 <expand macro="version_command"/>
 <command detect_errors="aggressive"><![CDATA[
+mkdir ./database_path &&
+ln -s '$(input_option.bakta_db_select.fields.path)/'* database_path &&
+ln -s '$(input_option.amrfinder_db_select.fields.path)' database_path &&
 bakta
 #*======================================
 CPU option
 ======================================*#
 --threads \${GALAXY_SLOTS:-1}
 #*======================================
 Bakta database
 ======================================*#
---db $input_option.db_select.fields.path
+--db ./database_path
 #if $input_option.min_contig_length
 --min-contig-length $input_option.min_contig_length
 #else if $annotation.compliant
 --min-contig-length 200
 #else
 #end if
 #*======================================
 Workflow OPTIONS
 skip some step of the bakta analysis
 ======================================*#
-$workflow.skip_trna
-$workflow.skip_tmrna
+#echo " ".join($workflow.skip_analysis)
-$workflow.skip_rrna
-$workflow.skip_ncrna
-$workflow.skip_ncrna_region
-$workflow.skip_crispr
-$workflow.skip_cds
-$workflow.skip_sorf
-$workflow.skip_gap
-$workflow.skip_ori
 #*======================================
 Genome file
 ======================================*#
 '$input_option.input_file'
 #*======================================
 LOG file
 ======================================*#
-&> '$logfile'
+| tee '$logfile'
 ]]></command>
 <inputs>
 <!-- DB and file INPUT -->
 <section name="input_option" title="Input/Output options" expanded="true">
-<param name="db_select" type="select" label="The bakta database">
+<param name="bakta_db_select" type="select" label="The bakta database">
 <options from_data_table="bakta_database">
-<validator message="No bakta database is available" type="no_options"/>
+<filter type="static_value" value="@BAKTA_VERSION@" column="bakta_version"/>
+<column name="dbkey" index="2"/>
+<validator message="No bakta database is available" type="no_options"/>
 </options>
 </param>
+<param name="amrfinder_db_select" type="select" label="The amrfinderplus database">
+<options from_data_table="amrfinderplus_database">
+<validator message="No amrfinderplus database is available" type="no_options"/>
+</options>
+</param>
 <param name="input_file" type="data" format="fasta,fasta.gz" label="Select genome in fasta format"/>
 <param name="min_contig_length" type="integer" optional="true" min="0" label="Minimum contig size" help="Minimum contig size (default = 1; 200 in compliant mode) (--min-contig-length)"/>
 </section>
 <!-- Organism INFORMATION OPTIONS -->
 <section name="organism" title="Optional organism options" expanded="false">
 <param argument="--genus" type="text" optional="true" label="Specify genus name" help="ex. Escherichia">
-<validator type="regex">^[A-Z]</validator>
+<validator type="regex">^[a-zA-Z]+$</validator>
 </param>
-<param argument="--species" type="text" optional="true" label="Specify species name" help="ex. 'coli O157:H7'"/>
+<param argument="--species" type="text" optional="true" label="Specify species name" help="ex. 'coli O157:H7'">
+<validator type="regex">^[a-zA-Z0-9\s(:\-/)]+$</validator>
+</param>
 <param argument="--strain" type="text" optional="true" label="Specify strain name" help="ex. Sakai">
-<validator type="regex">^[A-Z]</validator>
+<validator type="regex">^[a-zA-Z]+$</validator>
 </param>
-<param argument="--plasmid" type="text" optional="true" label="Specify plasmid name" help="ex. pOSAK1"/>
+<param argument="--plasmid" type="text" optional="true" label="Specify plasmid name" help="ex. pOSAK1">
+<validator type="regex">^[a-zA-Z0-9\s(:\-/)]+$</validator>
+</param>
 </section>
 <!-- ANNOTATION -->
 <section name="annotation" title="Optional annotation">
 <param argument="--complete" type="boolean" truevalue="--complete" falsevalue="" label="Complete replicons" help="All sequences are complete replicons (chromosome/plasmid[s])"/>
 <param argument="--prodigal" type="data" format="txt" optional="true" label="Prodigal file" help="Prodigal training file for CDS prediction"/>
 <option value="+">Gram+</option>
 <option value="-">Gram-</option>
 <option value="?" selected="true">Unknown</option>
 </param>
 <param name="keep_contig_headers" type="boolean" truevalue="--keep-contig-headers" falsevalue="" label="Keep original contig header (--keep-contig-headers)"/>
-<param argument="--replicons" type="data" format="tsv, csv" optional="true" label="Replicon information table (tsv/csv)" help=""/>
+<param argument="--replicons" type="data" format="tsv,csv" optional="true" label="Replicon information table (tsv/csv)" help=""/>
 <param argument="--compliant" type="boolean" truevalue="--compliant" falsevalue="" label="Force Genbank/ENA/DDJB compliance"/>
 <param argument="--proteins" type="data" format="fasta" optional="true" label="Protein fasta file" help="Fasta file of trusted protein sequences for CDS annotation"/>
 </section>
 <!-- PARAMETER FOR WORKFLOW ANALYSIS -->
 <section name="workflow" title="Workflow option to skip steps">
-<param name="skip_trna"   type="boolean" truevalue="--skip-trna" falsevalue="" label="Skip tRNA detection and annotation" help="(--skip-trna)"/>
+<param name="skip_analysis" type="select" display="checkboxes" multiple="true"  label="Select steps to skip">
-<param name="skip_tmrna"  type="boolean" truevalue="--skip-tmrna" falsevalue="" label="Skip tmRNA detection and annotation" help="(--skip-tmrna)"/>
+<option value="--skip-trna"> Skip tRNA detection and annotation </option>
-<param name="skip_rrna"  type="boolean" truevalue="--skip-rrna" falsevalue="" label=" Skip rRNA detection and annotation" help="(--skip-rrna)"/>
+<option value="--skip-tmrna"> Skip tmRNA detection and annotation </option>
-<param name="skip_ncrna"  type="boolean" truevalue="--skip-ncrna" falsevalue="" label=" Skip ncRNA detection and annotation" help="(--skip-ncrna)"/>
+<option value="--skip-rrna"> Skip rRNA detection and annotation </option>
-<param name="skip_ncrna_region" type="boolean" truevalue="--skip-ncrna-region" falsevalue="" label="Skip ncRNA region detection and annotation" help="(--skip-ncrna-region)"/>
+<option value="--skip-ncrna"> Skip ncRNA detection and annotation </option>
-<param name="skip_crispr" type="boolean" truevalue="--skip-crispr" falsevalue="" label="Skip CRISPR array detection and annotation" help="(--skip-crispr)"/>
+<option value="--skip-ncrna-region"> Skip ncRNA region detection and annotation </option>
-<param name="skip_cds"    type="boolean" truevalue="--skip-cds"  falsevalue="" label="Skip CDS detection and annotation" help="(--skip-cds)"/>
+<option value="--skip-crispr"> Skip CRISPR array detection and annotation </option>
-<param name="skip_sorf"   type="boolean" truevalue="--skip-sorf" falsevalue="" label="Skip sORF detection and annotation" help="(--skip-sorf)"/>
+<option value="--skip-cds"> Skip CDS detection and annotation </option>
-<param name="skip_gap"    type="boolean" truevalue="--skip-gap" falsevalue="" label="Skip gap detection and annotation" help="(--skip-gap)"/>
+<option value="--skip-pseudo"> Skip pseudogene detection and annotation </option>
-<param name="skip_ori"    type="boolean" truevalue="--skip-ori" falsevalue="" label="Skip oriC/oriT detection and annotation" help="(--skip_ori)"/>
+<option value="--skip-sorf"> Skip sORF detection and annotation </option>
+<option value="--skip-gap"> Skip gap detection and annotation </option>
+<option value="--skip-ori"> Skip oriC/oriT detection and annotation </option>
+</param>
 </section>
+<section name="output_files" title="Selection of the output files">
+<param name="output_selection" type="select" display="checkboxes" multiple="true"  label="Output files selection">
+<option value="file_tsv" selected="true"> Annotation file in TSV </option>
+<option value="file_gff3" selected="true"> Annotation and sequence in GFF3 </option>
+<option value="file_gbff" selected="false"> Annotations and sequences in GenBank format </option>
+<option value="file_embl" selected="false"> Annotations and sequences in EMBL format </option>
+<option value="file_fna" selected="false"> Replicon/contig DNA sequences as FASTA  </option>
+<option value="file_ffn" selected="true"> Feature nucleotide sequences as FASTA </option>
+<option value="file_faa" selected="false"> CDS/sORF amino acid sequences as FASTA </option>
+<option value="hypo_tsv" selected="false"> Hypothetical protein CDS in TSV</option>
+<option value="hypo_fa" selected="false"> Hypothetical protein CDS amino sequences as FASTA</option>
+<option value="sum_txt" selected="false"> Summary as TXT</option>
+<option value="file_json" selected="false"> Information on each annotated feature as JSON </option>
+<option value="file_plot" selected="true"> Plot of the annotation result as SVG </option>
+<option value="log_txt" selected="false"> Log file as TXT </option>
+</param>
+</section>
 </inputs>
 <outputs>
-<data name="logfile" format="txt" label="${tool.name} on ${on_string}: log file"/>
+<data name="annotation_tsv" format="tabular" from_work_dir="bakta_output.tsv" label="${tool.name} on ${on_string}: annotation_summary">
-<data name="annotation_tsv" format="tabular" from_work_dir="bakta_output.tsv" label="${tool.name} on ${on_string}: bakta_output.tsv"/>
+<filter> output_files['output_selection'] and "file_tsv" in output_files['output_selection'] </filter>
-<data name="annotation_gff3" format="tabular" from_work_dir="bakta_output.gff3" label="${tool.name} on ${on_string}: bakta_output.gff3"/>
+</data>
-<data name="annotation_gbff" format="tabular" from_work_dir="bakta_output.gbff" label="${tool.name} on ${on_string}: bakta_output.gbff"/>
+<data name="annotation_gff3" format="gff3" from_work_dir="bakta_output.gff3" label="${tool.name} on ${on_string}: Annotation_and_sequences">
-<data name="annotation_embl" format="tabular" from_work_dir="bakta_output.embl" label="${tool.name} on ${on_string}: bakta_output.embl"/>
+<filter> output_files['output_selection'] and "file_gff3" in output_files['output_selection'] </filter>
-<data name="annotation_fna" format="fasta" from_work_dir="bakta_output.fna" label="${tool.name} on ${on_string}: bakta_output.fna"/>
+</data>
-<data name="annotation_ffn" format="fasta" from_work_dir="bakta_output.ffn" label="${tool.name} on ${on_string}: bakta_output.ffn"/>
+<data name="annotation_gbff" format="tabular" from_work_dir="bakta_output.gbff" label="${tool.name} on ${on_string}: bakta_output.gbff">
-<data name="annotation_faa" format="fasta" from_work_dir="bakta_output.faa" label="${tool.name} on ${on_string}: bakta_output.faa"/>
+<filter> output_files['output_selection'] and "file_gbff" in output_files['output_selection'] </filter>
-<data name="hypotheticals_tsv" format="tabular" from_work_dir="bakta_output.hypotheticals.tsv" label="${tool.name} on ${on_string}: bakta_output.hypotheticals.tsv">
+</data>
-<filter>workflow['skip_cds'] == False</filter>
+<data name="annotation_embl" format="tabular" from_work_dir="bakta_output.embl" label="${tool.name} on ${on_string}: bakta_output.embl">
-</data>
+<filter> output_files['output_selection'] and "file_embl" in output_files['output_selection'] </filter>
-<data name="hypotheticals_faa" format="fasta" from_work_dir="bakta_output.hypotheticals.faa" label="${tool.name} on ${on_string}: bakta_output.hypotheticals.faa">
+</data>
-<filter>workflow['skip_cds'] == False</filter>
+<data name="annotation_fna" format="fasta" from_work_dir="bakta_output.fna" label="${tool.name} on ${on_string}: Contig_sequences">
-</data>
+<filter> output_files['output_selection'] and "file_fna" in output_files['output_selection'] </filter>
-<data name="summary_txt" format="txt" from_work_dir="bakta_output.txt" label="${tool.name} on ${on_string}: bakta_output.txt"/>
+</data>
-<data name="annotation_json" format="json" from_work_dir="bakta_output.json" label="${tool.name} on ${on_string}: bakta_output.json"/>
+<data name="annotation_ffn" format="fasta" from_work_dir="bakta_output.ffn" label="${tool.name} on ${on_string}: Nucleotide_sequences">
+<filter> output_files['output_selection'] and "file_ffn" in output_files['output_selection'] </filter>
+</data>
+<data name="annotation_faa" format="fasta" from_work_dir="bakta_output.faa" label="${tool.name} on ${on_string}: Amino_acid_sequences">
+<filter> output_files['output_selection'] and "file_faa" in output_files['output_selection'] </filter>
+</data>
+<data name="hypotheticals_tsv" format="tabular" from_work_dir="bakta_output.hypotheticals.tsv" label="${tool.name} on ${on_string}: hypothetical_annotation_summary">
+<filter> output_files['output_selection'] and "hypo_tsv" in output_files['output_selection'] </filter>
+</data>
+<data name="hypotheticals_faa" format="fasta" from_work_dir="bakta_output.hypotheticals.faa" label="${tool.name} on ${on_string}: hypothetical_amino_acid_sequences">
+<filter> output_files['output_selection'] and "hypo_fa" in output_files['output_selection'] </filter>
+</data>
+<data name="summary_txt" format="txt" from_work_dir="bakta_output.txt" label="${tool.name} on ${on_string}: Analysis_summary">
+<filter> output_files['output_selection'] and "sum_txt" in output_files['output_selection'] </filter>
+</data>
+<data name="annotation_json" format="json" from_work_dir="bakta_output.json" label="${tool.name} on ${on_string}: annotation_machine_readable">
+<filter> output_files['output_selection'] and "file_json" in output_files['output_selection'] </filter>
+</data>
+<data name="annotation_plot" format="svg" from_work_dir="bakta_output.svg" label="${tool.name} on ${on_string}: Plot of the annotation">
+<filter> output_files['output_selection'] and "file_plot" in output_files['output_selection'] </filter>
+</data>
+<data name="logfile" format="txt" label="${tool.name} on ${on_string}: log file">
+<filter> output_files['output_selection'] and "log_txt" in output_files['output_selection'] </filter>
+</data>
 </outputs>
 <tests>
-<test expect_num_outputs="12"> <!-- TEST_1 database + input -->
+<test expect_num_outputs="13"> <!-- TEST_1 database + input -->
 <section name="input_option" >
-<param name="db_select" value="test-db-bakta"/>
+<param name="bakta_db_select" value="V0.1_2022-08-29"/>
-<param name="input_file" value="NC_002127.1.fna"/>
+<param name="amrfinder_db_select" value="V3.6-2020-03-20.1"/>
-</section>
+<param name="input_file" value="NC_002127.1.fna"/>
-<output name="logfile" value="TEST_1/TEST_1.log" lines_diff="4">
+<param name="min_contig_length" value="250"/>
-<assert_contents>
+</section>
-<has_text_matching n="1" expression="Genome size: 3,306 bp"/>
+<section name="output_files">
-<has_n_lines n="90" delta="1"/>
+<param name="output_selection" value="file_tsv,file_gff3,file_gbff,file_embl,file_fna,file_ffn,file_faa,hypo_tsv,hypo_fa,sum_txt,file_json,file_plot,log_txt"/>
-</assert_contents>
+</section>
-</output>
+<output name="annotation_tsv" value="TEST_1/TEST_1.tsv" lines_diff="2"/>
-<output name="annotation_tsv" value="TEST_1/TEST_1.tsv" lines_diff="2">
+<output name="annotation_gff3" value="TEST_1/TEST_1.gff3" lines_diff="2"/>
-<assert_contents>
+<output name="annotation_gbff" value="TEST_1/TEST_1.gbff" lines_diff="8"/>
-<has_text_matching n="3" expression="contig_1"/>
+<output name="annotation_embl" value="TEST_1/TEST_1.embl" lines_diff="6"/>
-<has_n_lines n="6" delta="1"/>
+<output name="annotation_fna" value="TEST_1/TEST_1.fna"/>
-</assert_contents>
+<output name="annotation_ffn" value="TEST_1/TEST_1.ffn"/>
-</output>
+<output name="annotation_faa" value="TEST_1/TEST_1.faa"/>
-<output name="annotation_gff3" value="TEST_1/TEST_1.gff3" lines_diff="2">
+<output name="hypotheticals_tsv" value="TEST_1/TEST_1.hypotheticals.tsv" lines_diff="4"/>
-<assert_contents>
+<output name="hypotheticals_faa" value="TEST_1/TEST_1.hypotheticals.faa"/>
-<has_text_matching expression="AGCTATTCCTGGTTTCATATGAAACAAACCATGCCTGTTCTCATGCCAGTAAGTGTAGCA"/>
+<output name="summary_txt" value="TEST_1/TEST_1.txt" lines_diff="4"/>
-<has_n_lines n="70" delta="1"/>
+<output name="annotation_plot">
-</assert_contents>
+<assert_contents>
-</output>
+<has_size value="418991" delta="1000"/>
-<output name="annotation_gbff" value="TEST_1/TEST_1.gbff" lines_diff="4">
+</assert_contents>
-<assert_contents>
+</output>
-<has_text_matching expression="SSASSCSFSHMVACSSASSASSFSSSVRLWLFMNPAMLSAVCCCL"/>
-<has_n_lines n="133" delta="1"/>
+<output name="annotation_json" value="TEST_1/TEST_1.json" lines_diff="6"/>
-</assert_contents>
+<output name="logfile" value="TEST_1/TEST_1.log" lines_diff="6"/>
-</output>
-<output name="annotation_embl" value="TEST_1/TEST_1.embl" lines_diff="2">
-<assert_contents>
-<has_text_matching expression="FIFLFSPFCLSSASCDYIAHHFSTVLPPVFCRRTFQSDNTVTAKKQQCFVGNSNLQTGQ"/>
-<has_n_lines n="137" delta="2"/>
-</assert_contents>
-</output>
-<output name="annotation_fna" value="TEST_1/TEST_1.fna">
-<assert_contents>
-<has_text_matching expression="TTCTTCTGCGAGTTCGTGCAGCTTCTCACACATGGTGGCCTGCTCGTCAGCATCGAGTGC"/>
-<has_n_lines n="57"/>
-</assert_contents>
-</output>
-<output name="annotation_ffn" value="TEST_1/TEST_1.ffn">
-<assert_contents>
-<has_text_matching expression="TCTTCTGCGAGTTCGTGCAGCTTCTCACACATGGTGGCCTGCTCGTCAGCATCGAGTGCGTCCAGTTTTTCGAGC"/>
-<has_n_lines n="6"/>
-</assert_contents>
-</output>
-<output name="annotation_faa" value="TEST_1/TEST_1.faa">
-<assert_contents>
-<has_text_matching expression="MKKDKKYQIEAIKNKDKTLFIVYATDIYSPSEFFSKIESDLKKKKSKGDVFFDLIIPNGGKKDRYVYTSFNGEKFSSYTLNKVTKTDEYNDLSELSASFFKKNFDKINVNLLSKATSFALKKGIPI"/>
-<has_n_lines n="6"/>
-</assert_contents>
-</output>
-<output name="hypotheticals_tsv" value="TEST_1/TEST_1.hypotheticals.tsv">
-<assert_contents>
-<has_text_matching expression="DOGAIA_00010"/>
-<has_n_lines n="6"/>
-</assert_contents>
-</output>
-<output name="hypotheticals_faa" value="TEST_1/TEST_1.hypotheticals.faa">
-<assert_contents>
-<has_text_matching expression="SSASSCSFSHMVACSSASSASSFSSSVRLWLFMNPAMLSAVCCCLFIFLFSPFCLSSASCDYIAHHFSTVLPPVFCRRTF"/>
-<has_n_lines n="6"/>
-</assert_contents>
-</output>
-<output name="summary_txt" value="TEST_1/TEST_1.txt">
-<assert_contents>
-<has_text_matching expression="N50: 3306"/>
-<has_n_lines n="29"/>
-</assert_contents>
-</output>
-<output name="annotation_json" value="TEST_1/TEST_1.json" lines_diff="4">
-<assert_contents>
-<has_text_matching expression="0.6524500907441017"/>
-<has_n_lines n="112" delta="1"/>
-</assert_contents>
-</output>
-</test>
-<test expect_num_outputs="12"> <!-- TEST_2 another input, add organism info some annotations and skip 2 steps  -->
-<section name="input_option" >
-<param name="db_select" value="test-db-bakta"/>
-<param name="input_file" value="NC_002127.1.fna"/>
-<param name="min_contig_length" value="250"/>
-</section>
-<section name="organism">
-<param name="genus" value="Escherichia"/>
-<param name="species" value="coli O157:H7"/>
-<param name="strain" value="Sakai"/>
-<param name="plasmid" value="pOSAK1"/>
-</section>
-<section name="annotation">
-<param name="--gram" value="-"/>
-<param name="keep_contig_headers" value="true"/>
-</section>
-<section name="workflow">
-<param name="skip_crispr" value="true"/>
-<param name="skip_gap" value="true"/>
-</section>
-<output name="logfile" value="TEST_2/TEST_2.log" lines_diff="4">
-<assert_contents>
-<has_text_matching expression="Genome size: 3,306 bp"/>
-</assert_contents>
-</output>
-<output name="annotation_tsv" value="TEST_2/TEST_2.tsv" lines_diff="2">
-<assert_contents>
-<has_text_matching expression="DOGAIA_00005"/>
-</assert_contents>
-</output>
-<output name="annotation_gff3" value="TEST_2/TEST_2.gff3" lines_diff="2">
-<assert_contents>
-<has_text_matching expression="ID=NC_002127.1;Name=NC_002127.1;Is_circular=true"/>
-</assert_contents>
-</output>
-<output name="annotation_gbff" value="TEST_2/TEST_2.gbff" lines_diff="5">
-<assert_contents>
-<has_text_matching expression="SSASSCSFSHMVACSSASSASSFSSSV"/>
-</assert_contents>
-</output>
-<output name="annotation_embl" value="TEST_2/TEST_2.embl" lines_diff="4">
-<assert_contents>
-<has_text_matching expression="MKKDKKYQIEAIKNKDKTLFIVYATDIYSPSEFFSKIESDLKKKK"/>
-</assert_contents>
-</output>
-<output name="annotation_fna" value="TEST_2/TEST_2.fna"/>
-<output name="annotation_ffn" value="TEST_2/TEST_2.ffn"/>
-<output name="annotation_faa" value="TEST_2/TEST_2.faa"/>
-<output name="hypotheticals_tsv" value="TEST_2/TEST_2.hypotheticals.tsv"/>
-<output name="hypotheticals_faa" value="TEST_2/TEST_2.hypotheticals.faa"/>
-<output name="summary_txt" value="TEST_2/TEST_2.txt">
-<assert_contents>
-<has_text_matching expression="N50: 3306"/>
-</assert_contents>
-</output>
-<output name="annotation_json" value="TEST_2/TEST_2.json" lines_diff="4">
-<assert_contents>
-<has_text_matching expression="0.6524500907441017"/>
-</assert_contents>
-</output>
-</test>
-<test expect_num_outputs="10"> <!-- TEST_3 test all skip steps  -->
-<section name="input_option" >
-<param name="db_select" value="test-db-bakta"/>
-<param name="input_file" value="NC_002127.1.fna"/>
-<param name="min_contig_length" value="250"/>
-</section>
-<section name="workflow">
-<param name="skip_trna" value="true"/>
-<param name="skip_tmrna" value="true"/>
-<param name="skip_rrna" value="true"/>
-<param name="skip_ncrna" value="true"/>
-<param name="skip_ncrna_region" value="true"/>
-<param name="skip_crispr" value="true"/>
-<param name="skip_cds" value="true"/>
-<param name="skip_sorf" value="true"/>
-<param name="skip_gap" value="true"/>
-<param name="skip_ori" value="true"/>
-</section>
-<output name="logfile" value="TEST_3/TEST_3.log" lines_diff="4">
-<assert_contents>
-<has_text_matching expression="Genome size: 3,306 bp"/>
-</assert_contents>
-</output>
-<output name="annotation_tsv" value="TEST_3/TEST_3.tsv" lines_diff="1">
-<assert_contents>
-<has_n_lines n="3" delta="1"/>
-</assert_contents>
-</output>
-<output name="annotation_gff3" value="TEST_3/TEST_3.gff3" lines_diff="2">
-<assert_contents>
-<has_n_lines n="67" delta="1"/>
-</assert_contents>
-</output>
-<output name="annotation_gbff" value="TEST_3/TEST_3.gbff" lines_diff="10"/>
-<output name="annotation_embl" value="TEST_3/TEST_3.embl" lines_diff="4"/>
-<output name="annotation_fna" value="TEST_3/TEST_3.fna"/>
-<output name="annotation_ffn" value="TEST_3/TEST_3.ffn"/>
-<output name="annotation_faa" value="TEST_3/TEST_3.faa"/>
-<output name="summary_txt" value="TEST_3/TEST_3.txt">
-<assert_contents>
-<has_text_matching expression="GC: 43.4"/>
-</assert_contents>
-</output>
-<output name="annotation_json" value="TEST_3/TEST_3.json" lines_diff="4"/>
 </test>
-<test expect_num_outputs="12"> <!-- TEST_4 annotations   -->
+<test expect_num_outputs="4"> <!-- TEST_2 another input, add organism info some annotations and skip 2 steps  -->
 <section name="input_option" >
-<param name="db_select" value="test-db-bakta"/>
+<param name="bakta_db_select" value="V0.1_2022-08-29"/>
+<param name="amrfinder_db_select" value="V3.6-2020-03-20.1"/>
 <param name="input_file" value="NC_002127.1.fna"/>
+<param name="min_contig_length" value="250"/>
+</section>
+<section name="organism">
+<param name="genus" value="Escherichia"/>
+<param name="species" value="coli O157:H7"/>
+<param name="strain" value="Sakai"/>
+<param name="plasmid" value="pOSAK1"/>
 </section>
 <section name="annotation">
-<param name="complete" value="true"/>
+<param name="--gram" value="-"/>
-<param name="translation_table" value="4"/>
+<param name="keep_contig_headers" value="true"/>
-<param name="prodigal" value="prodigal.tf"/>
+</section>
-<param name="replicons" value="replicons.tsv"/>
+<section name="workflow">
-<param name="compliant" value="true"/>
+<param name="skip_analysis" value="--skip-trna,--skip-tmrna"/>
-<param name="proteins" value="user-proteins.faa"/>
+</section>
-</section>
+<output name="annotation_tsv" value="TEST_2/TEST_2.tsv" lines_diff="4">
-<output name="logfile" value="TEST_4/TEST_4.log" lines_diff="4">
+<assert_contents>
-<assert_contents>
+<has_text_matching expression="IHHALP_00005"/>
-<has_text_matching expression="Genome size: 3,306 bp"/>
+</assert_contents>
-</assert_contents>
+</output>
-</output>
+<output name="annotation_gff3" value="TEST_2/TEST_2.gff3" lines_diff="4">
-<output name="annotation_tsv" value="TEST_4/TEST_4.tsv" lines_diff="2">
+<assert_contents>
-<assert_contents>
+<has_text_matching expression="ID=NC_002127.1;Name=NC_002127.1;Is_circular=true"/>
-<has_text_matching expression="mock1"/>
+</assert_contents>
-</assert_contents>
+</output>
-</output>
+<output name="annotation_ffn" value="TEST_2/TEST_2.ffn"/>
-<output name="annotation_gff3" value="TEST_4/TEST_4.gff3" lines_diff="2">
+<output name="annotation_plot">
 <assert_contents>
-<has_text_matching expression="ID=DOGAIA_00005_gene;locus_tag=DOGAIA_00005"/>
+<has_size value="418991" delta="1000"/>
-</assert_contents>
-</output>
-<output name="annotation_gbff" value="TEST_4/TEST_4.gbff" lines_diff="4">
-<assert_contents>
-<has_text_matching expression="SSASSCSFSHMVACSSASSASSFSSSVRLWLFMNPAMLSAVCCCL"/>
-</assert_contents>
-</output>
-<output name="annotation_embl" value="TEST_4/TEST_4.embl" lines_diff="4">
-<assert_contents>
-<has_text_matching expression="MKKDKKYQIEAIKNKDKTLFIVYATDIYSPSEFFSKIESDLKKKK"/>
-</assert_contents>
-</output>
-<output name="annotation_fna" value="TEST_4/TEST_4.fna"/>
-<output name="annotation_ffn" value="TEST_4/TEST_4.ffn"/>
-<output name="annotation_faa" value="TEST_4/TEST_4.faa"/>
-<output name="hypotheticals_tsv" value="TEST_4/TEST_4.hypotheticals.tsv"/>
-<output name="hypotheticals_faa" value="TEST_4/TEST_4.hypotheticals.faa"/>
-<output name="summary_txt" value="TEST_4/TEST_4.txt">
-<assert_contents>
-<has_text_matching expression="CDSs: 3"/>
-</assert_contents>
-</output>
-<output name="annotation_json" value="TEST_4/TEST_4.json" lines_diff="4">
-<assert_contents>
-<has_text_matching expression="0.4340592861464005"/>
 </assert_contents>
 </output>
 </test>
+<test expect_num_outputs="4"> <!-- TEST_3 test all skip steps  -->
+<section name="input_option" >
+<param name="bakta_db_select" value="V0.1_2022-08-29"/>
+<param name="amrfinder_db_select" value="V3.6-2020-03-20.1"/>
+<param name="input_file" value="NC_002127.1.fna"/>
+<param name="min_contig_length" value="350"/>
+</section>
+<section name="workflow">
+<param name="skip_analysis" value="--skip-trna,--skip-tmrna,--skip-rrna,--skip-ncrna,--skip-ncrna-region,--skip-crispr,--skip-cds,--skip-sorf,--skip-gap,--skip-ori"/>
+</section>
+<output name="annotation_tsv" value="TEST_3/TEST_3.tsv" lines_diff="4"/>
+<output name="annotation_gff3" value="TEST_3/TEST_3.gff3" lines_diff="4"/>
+<output name="annotation_ffn" value="TEST_3/TEST_3.ffn"/>
+<output name="annotation_plot">
+<assert_contents>
+<has_size value="418399" delta="1000"/>
+</assert_contents>
+</output>
+</test>
+<test expect_num_outputs="4"> <!-- TEST_4 annotations   -->
+<section name="input_option" >
+<param name="bakta_db_select" value="V0.1_2022-08-29"/>
+<param name="amrfinder_db_select" value="V3.6-2020-03-20.1"/>
+<param name="input_file" value="NC_002127.1.fna"/>
+</section>
+<section name="annotation">
+<param name="complete" value="true"/>
+<param name="prodigal" value="prodigal.tf"/>
+<param name="translation_table" value="4"/>
+<param name="replicons" value="replicons.tsv"/>
+<param name="compliant" value="true"/>
+<param name="proteins" value="user-proteins.faa"/>
+</section>
+<output name="annotation_tsv" value="TEST_4/TEST_4.tsv" lines_diff="4"/>
+<output name="annotation_gff3" value="TEST_4/TEST_4.gff3" lines_diff="4"/>
+<output name="annotation_ffn" value="TEST_4/TEST_4.ffn"/>
+<output name="annotation_plot">
+<assert_contents>
+<has_size value="418399" delta="1000"/>
+</assert_contents>
+</output>
+</test>
+<test expect_num_outputs="2"> <!-- TEST_5 skip all steps and keep only the logfile and summary -->
+<section name="input_option" >
+<param name="bakta_db_select" value="V0.1_2022-08-29"/>
+<param name="amrfinder_db_select" value="V3.6-2020-03-20.1"/>
+<param name="input_file" value="NC_002127.1.fna"/>
+</section>
+<section name="annotation">
+<param name="complete" value="true"/>
+<param name="translation_table" value="4"/>
+</section>
+<section name="workflow">
+<param name="skip_analysis" value="--skip-trna,--skip-tmrna,--skip-rrna,--skip-ncrna,--skip-ncrna-region,--skip-crispr,--skip-cds,--skip-sorf,--skip-gap,--skip-ori"/>
+</section>
+<section name="output_files">
+<param name="output_selection" value="log_txt,sum_txt"/>
+</section>
+<output name="logfile" value="TEST_5/TEST_5.log" lines_diff="6"/>
+<output name="summary_txt" value="TEST_5/TEST_5.txt" lines_diff="4"/>
+</test>
 </tests>
+<help><![CDATA[**What it does**
-<help><![CDATA[
+Bakta is a tool for the rapid & standardized annotation of bacterial genomes and plasmids from both isolates and MAGs.
-usage: bakta [--db DB] [--min-contig-length MIN_CONTIG_LENGTH]
-[--prefix PREFIX] [--output OUTPUT] [--genus GENUS]
+*Comprehensive & taxonomy-independent database*
-[--species SPECIES] [--strain STRAIN] [--plasmid PLASMID]
+Bakta provides a large and taxonomy-independent database using UniProt's entire UniRef protein sequence cluster universe.
-[--complete] [--prodigal-tf PRODIGAL_TF]
-[--translation-table {11,4}] [--gram {+,-,?}] [--locus LOCUS]
+*Protein sequence identification*
-[--locus-tag LOCUS_TAG] [--keep-contig-headers]
+Bakta exactly identifies known identical protein sequences (IPS) from RefSeq and UniProt
-[--replicons REPLICONS] [--compliant] [--proteins PROTEINS]
+allowing the fine-grained annotation of gene alleles (AMR) or closely related but distinct protein families.
-[--skip-trna] [--skip-tmrna] [--skip-rrna] [--skip-ncrna]
+This is achieved via an alignment-free sequence identification (AFSI) approach
-[--skip-ncrna-region] [--skip-crispr] [--skip-cds] [--skip-sorf]
+using full-length MD5 protein sequence hash digests.
-[--skip-gap] [--skip-ori] [--help] [--verbose]
+*Small proteins/short open reading frames*
-[--threads THREADS] [--tmp-dir TMP_DIR] [--version]
+Bakta detects and annotates small proteins/short open reading frames (sORF).
-<genome>
+*Expert annotation systems*
-Rapid & standardized annotation of bacterial genomes, MAGs & plasmids
+To provide high quality annotations for certain proteins of higher interest, e.g. AMR & VF genes,
+Bakta includes & merges different expert annotation systems.
-positional arguments:
+Currently, Bakta uses NCBI's AMRFinderPlus for AMR gene annotations
-<genome>                      Genome sequences in (zipped) fasta format
+as well as an generalized protein sequence expert system with distinct
+coverage, identity and priority values for each sequence, currenlty comprising the VFDB as well as NCBI's BlastRules.
-Input / Output:
---db DB, -d DB        Database path (default = <bakta_path>/db). Can also be
+*Comprehensive workflow*
-provided as BAKTA_DB environment variable.
+Bakta annotates ncRNA cis-regulatory regions, oriC/oriV/oriT
---min-contig-length MIN_CONTIG_LENGTH, -m MIN_CONTIG_LENGTH
+and assembly gaps as well as standard feature types: tRNA, tmRNA, rRNA, ncRNA genes, CRISPR, CDS.
-Minimum contig size (default = 1; 200 in compliant
-mode)
+*GFF3 & INSDC conform annotations*
---prefix PREFIX, -p PREFIX
+Bakta writes GFF3 and INSDC-compliant (Genbank & EMBL) annotation files ready for submission
-Prefix for output files
+(checked via GenomeTools GFF3Validator, table2asn_GFF and ENA Webin-CLI for GFF3 and EMBL file formats,
---output OUTPUT, -o OUTPUT
+respectively for representative genomes of all ESKAPE species).
-Output directory (default = current working directory)
+*Bacteria & plasmids*
-Organism:
+Bakta was designed to annotate bacteria (isolates & MAGs) and plasmids, only.
---genus GENUS         Genus name
---species SPECIES     Species name
+**Input options**
---strain STRAIN       Strain name
+1. Choose a genome or assembly in fasta format to use bakta annotations
---plasmid PLASMID     Plasmid name
+2. Choose A version of the Bakta database
-Annotation:
+**Organism options**
---complete                    All sequences are complete replicons (chromosome/plasmid[s])
+You can specify informations about analysed fasta as text input for:
---prodigal-tf PRODIGAL_TF     Path to existing Prodigal training file to use for CDS prediction
+- genus
+- species
---translation-table {11,4}    Translation table: 11/4 (default = 11)
+- strain
---gram {+,-,?}                Gram type for signal peptide predictions: +/-/? (default = ?)
+- plasmid
---locus LOCUS                 Locus prefix (default = 'contig')
---locus-tag LOCUS_TAG         Locus tag prefix (default = autogenerated)
+**Annotation options**
---keep-contig-headers         Keep original contig headers
+1. You can specify if all sequences (chromosome or plasmids) are complete or not
---replicons REPLICONS         Replicon information table (tsv/csv)
+2. You can add your own prodigal training file for CDS predictionœ
---compliant                   Force Genbank/ENA/DDJB compliance
+3. The translation table could be modified, default is the 11th for bacteria
---proteins PROTEINS   Fasta file of trusted protein sequences for CDS annotation
+4. You can specify if bacteria is gram -/+ or unknonw (default value unknow)
+5. You can keep the name of contig present in the input file
+6. You can specify your own replicon table as a TSV/CSV file
-Workflow:
+7. The compliance option is for ready to submit annotation file to Public database
---skip-trna           Skip tRNA detection & annotation
+as ENA, Genbank EMBL
---skip-tmrna          Skip tmRNA detection & annotation
+8. You can specify a protein sequence file for annotation in GenBank or fasta formats
---skip-rrna           Skip rRNA detection & annotation
+Using the Fasta format, each reference sequence can be provided in a short or long format:
---skip-ncrna          Skip ncRNA detection & annotation
---skip-ncrna-region   Skip ncRNA region detection & annotation
+# short:
---skip-crispr         Skip CRISPR array detection & annotation
+>id gene~~~product~~~dbxrefs
---skip-cds            Skip CDS detection & annotation
+MAQ...
---skip-sorf           Skip sORF detection & annotation
---skip-gap            Skip gap detection & annotation
+# long:
---skip-ori            Skip oriC/oriT detection & annotation
+>id min_identity~~~min_query_cov~~~min_subject_cov~~~gene~~~product~~~dbxrefs
+MAQ...
-General:
---help, -h            Show this help message and exit
+**Skip steps**
---verbose, -v         Print verbose information
+Some steps could be skiped:
---threads THREADS, -t THREADS
+- skip-trna           Skip tRNA detection & annotation
-Number of threads to use (default = number of
+- skip-tmrna          Skip tmRNA detection & annotation
-available CPUs)
+- skip-rrna           Skip rRNA detection & annotation
---tmp-dir TMP_DIR     Location for temporary files (default = system
+- skip-ncrna          Skip ncRNA detection & annotation
-dependent auto detection)
+- skip-ncrna-region   Skip ncRNA region detection & annotation
---version             show program's version number and exit
+- skip-crispr         Skip CRISPR array detection & annotation
+- skip-cds            Skip CDS detection & annotation
+- skip-pseudo         Skip pseudogene detection & annotation
+- skip-sorf           Skip sORF detection & annotation
+- skip-gap            Skip gap detection & annotation
+- skip-ori            Skip oriC/oriT detection & annotation
+**Output options**
+Bakta produce numbers of output files, you can select what type of file you want:
+- Summary of the annotation
+- Annotated files
+- Sequence files for nucleotide and/or amino acid
 ]]></help>
 <expand macro="citations"/>
 </tool>

Mercurial > repos > pimarin > bakta

comparison bakta.xml @ 3:eea334d9988b draft