sklearn_data_preprocess: pre_process.xml comparison

comparison pre_process.xml @ 28:a12d5eae322e draft

planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/sklearn commit 60f0fbc0eafd7c11bc60fb6c77f2937782efd8a9-dirty

author	bgruening
date	Fri, 09 Aug 2019 06:25:31 -0400
parents	55b36adb2dc7
children	e270c53b5df6

comparison

equal deleted inserted replaced

-:f7e85579f2e6
+:a12d5eae322e
 <![CDATA[
 import sys
 import json
 import pandas
 import pickle
 from scipy.io import mmread
 from scipy.io import mmwrite
 from sklearn import preprocessing
+from galaxy_ml.utils import read_columns, SafeEval
-sys.path.insert(0, '$__tool_directory__')
-from utils import read_columns
+safe_eval = SafeEval()
 input_json_path = sys.argv[1]
 with open(input_json_path, "r") as param_handler:
 params = json.load(param_handler)
 column_option = params["input_type"]["column_selector_options_1"]["selected_column_selector_option"]
 if column_option in ["by_index_number", "all_but_by_index_number", "by_header_name", "all_but_by_header_name"]:
 c = params["input_type"]["column_selector_options_1"]["col1"]
 else:
 c = None
-X = read_columns(
+X, input_df = read_columns(
 "$input_type.infile",
-c = c,
+c=c,
-c_option = column_option,
+c_option=column_option,
+return_df=True,
 sep='\t',
 header=header,
 parse_dates=True,
 encoding=None,
 index_col=None,
-tupleize_cols=False).astype(float)
+tupleize_cols=False)
+X = X.astype(float)
 #end if
 preprocessor = params["input_type"]["pre_processors"]["selected_pre_processor"]
 options = params["input_type"]["pre_processors"]["options"]
+if 'feature_range' in options:
+feature_range = safe_eval(options['feature_range'].strip())
+if not feature_range:
+feature_range = (0, 1)
+options['feature_range'] = feature_range
 my_class = getattr(preprocessing, preprocessor)
 estimator = my_class(**options)
 estimator.fit(X)
 result = estimator.transform(X)
 #if $input_type.selected_input_type == "sparse":
 with open("$outfile_transform", "wb") as transform_handler:
 mmwrite(transform_handler, result)
 #else:
-res = pandas.DataFrame(result)
+columns = input_df.columns
-res.to_csv(path_or_buf = "$outfile_transform", sep="\t", index=False, header=None)
+if preprocessor == 'PolynomialFeatures':
+columns = None
+header = False
+res = pandas.DataFrame(result, columns=columns)
+res.to_csv(path_or_buf = "$outfile_transform", sep="\t",
+index=False, header=True if header else False)
 #end if
 #if $save:
 with open("$outfile_fit", 'wb') as out_handler:
 pickle.dump(estimator, out_handler, pickle.HIGHEST_PROTOCOL)
 <param name="save" value="true"/>
 <output name="outfile_transform" file="prp_result05" ftype="tabular"/>
 <output name="outfile_fit" file="prp_model05" ftype="zip" compare="sim_size" delta="5"/>
 </test>
 <test>
-<param name="infile" value="csr_sparse2.mtx" ftype="txt"/>
-<param name="selected_input_type" value="sparse"/>
-<param name="selected_pre_processor" value="Imputer"/>
-<param name="save" value="true"/>
-<param name="axis" value="true"/>
-<output name="outfile_transform" file="prp_result06" ftype="tabular"/>
-<output name="outfile_fit" file="prp_model06" ftype="zip" compare="sim_size" delta="50"/>
-</test>
-<test>
 <param name="infile" value="train.tabular" ftype="tabular"/>
 <param name="selected_input_type" value="tabular"/>
 <param name="selected_column_selector_option" value="all_columns"/>
 <param name="selected_pre_processor" value="StandardScaler"/>
 <param name="save" value="true"/>
 <param name="selected_input_type" value="sparse"/>
 <param name="selected_pre_processor" value="Normalizer"/>
 <param name="save" value="true"/>
 <output name="outfile_transform" file="prp_result09" ftype="tabular"/>
 <output name="outfile_fit" file="prp_model09" ftype="zip" compare="sim_size" delta="5"/>
+</test>
+<test>
+<param name="infile" value="regression_X.tabular" ftype="tabular"/>
+<param name="header1" value="true"/>
+<param name="selected_column_selector_option" value="all_columns"/>
+<param name="selected_input_type" value="tabular"/>
+<param name="selected_pre_processor" value="MinMaxScaler"/>
+<param name="feature_range" value="(-1, 1)"/>
+<param name="save" value="false"/>
+<output name="outfile_transform" file="prp_result10" ftype="tabular"/>
 </test>
 </tests>
 <help>
 <![CDATA[
 **What it does**

Mercurial > repos > bgruening > sklearn_data_preprocess

comparison pre_process.xml @ 28:a12d5eae322e draft