Fixed dictionary keys issue (nan).

a599a051 · Alberto Blázquez Herranz · ec1d5854 · a599a051 · a599a051
Commit a599a051 authored Nov 15, 2021 by Alberto Blázquez Herranz
Hide whitespace changes
Inline Side-by-side

Showing with 29 additions and 5 deletions

derived_variables_generator.py derived_variables_generator.py +18 -3

numeric_converter.py numeric_converter.py +11 -2

No files found.
--- a/derived_variables_generator.py
+++ b/derived_variables_generator.py
@@ -40,10 +40,10 @@ if "DMRAGEYR" in datafile.columns:
        
    

-if "DSXOS" in datafile.columns:
+if "DATDS" in datafile.columns:
    
    derived_outcome_month = []
-    for x in datafile["DSXOS"]:
+    for x in datafile["DATDS"]:
        month_num = x.split("/")[1]
        
        datetime_object = datetime.datetime.strptime(month_num, "%m")
@@ -51,9 +51,24 @@ if "DSXOS" in datafile.columns:

        derived_outcome_month.append(full_month_name)
    
-    datafile["MONTH_DISCHARGE"] = derived_outcome_month
+    datafile["DISCHARGE_DATE"] = derived_outcome_month


+
+if "DATAD" in datafile.columns:
+    
+    derived_outcome_month = []
+    for x in datafile["DATAD"]:
+        month_num = x.split("/")[1]
+        
+        datetime_object = datetime.datetime.strptime(month_num, "%m")
+        full_month_name = datetime_object.strftime("%B")
+
+        derived_outcome_month.append(full_month_name)
+    
+    datafile["ADMISSION_DATE"] = derived_outcome_month
+
+    
    
 new_datafile_path = datafile_path.replace(".csv", "_derived.csv")
 datafile.to_csv(new_datafile_path, index = False)
\ No newline at end of file
--- a/numeric_converter.py
+++ b/numeric_converter.py
@@ -19,6 +19,8 @@ categorical_variables = ["DMRGENDR", "DMRBORN", "DMRRETH1", "DMROCCU", "DMRHREDU
                         "HMRACI","HMRARB","HMRAHO","HMRNS","HMROS","HMRCS","HMRIS","HMRAV","HMRAB","HMRCOV","IMDXCT","IMDXCTCR","IMDXCTTE","IMDXCTAB","IMDXXR","IMDXPN",
                         "COXRD","COXAR","COXPM","COXMOD","COXPT","COXEC","COXSH","COXIO","COXPE","COXST","COXDIC","COXRIO","COXKF","COXHF","COXBC"]

+numeric_variables = ["DMRAGEYR","DMXHT","DMXWT","DMXBMI","DATLGT","DATLGTI","DATSSDHn","CSXBTPA","CSXBTPHn","CSXOSTA","CSXOSTHn","CSXCHRA","CSXCHRHn","CSXRRA","CSXRRHn","CSXRRI","CSXSYA","CSXSYHn","CSXDIA","CSXDIHn","SMTFE","SMTCO","SMTST","SMTSB","SMXSEA","DATIMD","IMDXCTLD","IMDXEQ","DATLBDHn","LBXHGBA","LBXHGBHn","LBXESRA","LBXESRHn","LBXWBCSIA","LBXWBCSIHn","LBXLYMNOA","LBXLYMNOHn","LBXNENOA","LBXNENOHn","LBXHCTA","LBXHCTHn","LBXPLTSIA","LBXPLTSIHn","LBXGHA","LBXGHHn","LBXAPTTA","LBXAPTTHn","LBXAPTRA","LBXAPTRHn","LBXPTA","LBXPRHn","LBXINRA","LBXINRHn","LBXSATSIA","LBXSATSIHn","LBXSTBA","LBXSTBHn","LBXSCBA","LBXSCBHn","LBXSUBA","LBXSUBHn","LBXSASSIA","LBXSASSIHn","LBXSGLA","LBXSGLHn","LBXSBUA","LBXSBUHn","LBXSBLA","LBXSBLHn","LBXSCRA","LBXSCRHn","LBXSNASIA","LBXSNASIHn","LBXSCLSIA","LBXSCLSIHn","LBXSKSIA","LBXSKSIHn","LBXSPCA","LBXSPCHn","LBXCRPA","LBXCRPHn","LBXSLDSIA","LBXSLDSIHn","LBXCTRA","LBXCTRHn","LBXCDDA","LBXCDDHn","LBXFERSIA","LBXFERSIHn","LBXIL6A","LBXIL6Hn","LBDFBSIA","LBDFBSIHn","LBDSALSIA","LBDSALSIHn","LBXSAPSIA","LBXSAPSIHn","LBXSGTSIA","LBXSGTSIHn","LBXCFDA","LBXCFDHn","LBXFIOA","LBXFIOHn","LBXPOA","LBXPOHn","LBXPCOA","LBXPCOHn","LBXSC3SIA","LBXSC3SIHn","LBXPHA","LBXPHHn","LBXBEH","LBXBEHn","LBXA4A","LBXA4Hn","LBXTCA","LBXTCHn","LBXTRA","LBXTRHn","LBXSCKA","LBXSCKHn","LBXPSCKA","LBXPSCKHn"]
+
 datafile = pd.read_csv(datafile_path, csv_separator)


@@ -28,11 +30,18 @@ for col in convert_col:
    
    unique_values = datafile[col].unique()
    
-    numeric_column_dict = {x: i for i, x in enumerate(unique_values)}
+    numeric_column_dict = {str(x): i for i, x in enumerate(unique_values)}
    
-    numeric_column = [numeric_column_dict[x] for x in datafile[col]]
+    numeric_column = [numeric_column_dict[str(x)] for x in datafile[col]]
    
    datafile[col + "_numeric"] = numeric_column

+
+verify_num_col = [x for x in datafile.columns if x in numeric_variables]
+
+for col in verify_num_col:
+    
+    datafile[col] = [float(x) for x in datafile[col]]
+
 new_datafile_path = datafile_path.replace(".csv", "_numeric.csv")
 datafile.to_csv(new_datafile_path, index = False)
\ No newline at end of file