Initial commit.

ec1d5854 · Alberto Blázquez Herranz · ef21a75a · ec1d5854 · ec1d5854
Commit ec1d5854 authored Nov 11, 2021 by Alberto Blázquez Herranz
Hide whitespace changes
Inline Side-by-side

Showing with 97 additions and 0 deletions

derived_variables_generator.py derived_variables_generator.py +59 -0

numeric_converter.py numeric_converter.py +38 -0

No files found.
--- a/derived_variables_generator.py
+++ b/derived_variables_generator.py
+# -*- coding: utf-8 -*-
+"""
+Created on Wed Nov 10 12:41:12 2021
+@author: ctb
+"""
+import datetime
+import pandas as pd
+import sys
+datafile_path = sys.argv[1]
+csv_separator = ","
+if len(sys.argv) == 3:
+    csv_separator = sys.argv[2]
+datafile = pd.read_csv(datafile_path, csv_separator)
+age_ranges = list(range(30, 100, 10))
+if "DMRAGEYR" in datafile.columns:
+    derived_age_range = []
+    for x in datafile["DMRAGEYR"]:
+        age_range = -1
+        for i, mark in enumerate(age_ranges):
+            if x > mark:
+                age_range= str(mark) + "-" + str(age_ranges[i+1] - 1)
+                break
+        if age_range == -1:
+            age_range = "18-29"
+        derived_age_range.append(age_range)
+    datafile["AGE_RANGE"] = derived_age_range
+if "DSXOS" in datafile.columns:
+    derived_outcome_month = []
+    for x in datafile["DSXOS"]:
+        month_num = x.split("/")[1]
+        datetime_object = datetime.datetime.strptime(month_num, "%m")
+        full_month_name = datetime_object.strftime("%B")
+        derived_outcome_month.append(full_month_name)
+    datafile["MONTH_DISCHARGE"] = derived_outcome_month
+new_datafile_path = datafile_path.replace(".csv", "_derived.csv")
+datafile.to_csv(new_datafile_path, index = False)
\ No newline at end of file
--- a/numeric_converter.py
+++ b/numeric_converter.py
+# -*- coding: utf-8 -*-
+"""
+Created on Wed Nov 10 11:52:54 2021
+@author: ctb
+"""
+import pandas as pd
+import sys
+datafile_path = sys.argv[1]
+csv_separator = ","
+if len(sys.argv) == 3:
+    csv_separator = sys.argv[2]
+categorical_variables = ["DMRGENDR", "DMRBORN", "DMRRETH1", "DMROCCU", "DMRHREDU", "DSXOS", "DSXHO", "DSXIC", "TRXAV","TRXRIB","TRXLR","TRXRM","TRXIA","TRXIB","TRXCH","TRXAB","TRXCS","TRXHEP","TRXAF","TRXCP","TRXOT","TRXECM","TRXIV","TRXNIV","TRXNO","TRXOX","TRXRR","TRXTR","TRXVA","TRXPE","TRXPV","TRXIT","TRXNMB","TRXAC","TRXINA","TRXIS","TRXIM","TRXVC","TRXVD","TRXZN",
+                         "CSXCOT","CSXCTR","SMXASAH","SMXFEA","SMXCOA","SMXSTA","SMXSBA","SMXRNA","SMXMYA","SMXARA","SMXCPA","SMXAPA","SMXINA","SMXNAA","SMXDIA","SMXFAA","SMXHEA","SMXCNA","SMXACA","SMXSLA","SMXTLA","SMXSYA","SMXWHA","SMXLYA","SMXANA","SMXIWA","SMXSRA","SMXBLA","CMXPRG","CMXCVD","CMXCMP","CMXHT","CMXDI","CMXCKD","CMXCLD","CMXCPD","CMXASM","CMXCND","CMXRHE","CMXCCI","CMXCBD","CMXDE","CMXPU","CMXST","CMXLY","CMXAP","RFXSM","RFXFSM","RFXOB","RFXTB","RFXIMD","RFXHIV","RFXAIDS","RFXUI","RFXHC","RFXONC","RFXMN",
+                         "HMRACI","HMRARB","HMRAHO","HMRNS","HMROS","HMRCS","HMRIS","HMRAV","HMRAB","HMRCOV","IMDXCT","IMDXCTCR","IMDXCTTE","IMDXCTAB","IMDXXR","IMDXPN",
+                         "COXRD","COXAR","COXPM","COXMOD","COXPT","COXEC","COXSH","COXIO","COXPE","COXST","COXDIC","COXRIO","COXKF","COXHF","COXBC"]
+datafile = pd.read_csv(datafile_path, csv_separator)
+convert_col = [x for x in datafile.columns if x in categorical_variables]
+for col in convert_col:
+    unique_values = datafile[col].unique()
+    numeric_column_dict = {x: i for i, x in enumerate(unique_values)}
+    numeric_column = [numeric_column_dict[x] for x in datafile[col]]
+    datafile[col + "_numeric"] = numeric_column
+new_datafile_path = datafile_path.replace(".csv", "_numeric.csv")
+datafile.to_csv(new_datafile_path, index = False)
\ No newline at end of file