working fibers with pareto front optimizing bin size and log rank sco…

…re, and covariate data generation
UrbsLab · Aug 20, 2024 · 432b3ec · 432b3ec
1 parent 48b393f
commit 432b3ec
Show file tree

Hide file tree

Showing 9 changed files with 137,059 additions and 10,346 deletions.
diff --git a/FIBERS_Survival_Demo.ipynb b/FIBERS_Survival_Demo.ipynb
diff --git a/paper_analysis_codes/FIBERS_Survival_Covariates_New.ipynb b/paper_analysis_codes/FIBERS_Survival_Covariates_New.ipynb
diff --git a/src/skfibers/experiments/survival_covariates_sim.py b/src/skfibers/experiments/survival_covariates_sim.py
@@ -23,7 +23,7 @@ def survival_data_simulation_covariates(instances=10000,total_features=100,predi
 
     #P1_values = []
     #P2_values = []
-    PC1_values = []
+    TC1_values = []
     #PC2_values = [] #test
     patient_censoring_times = []
     administrative_censoring_times = []
@@ -48,12 +48,12 @@ def survival_data_simulation_covariates(instances=10000,total_features=100,predi
         #P1 = int(random.random() < 0.3)
         #P2 = int(random.random() < 0.3)
 
-        #PC1 = int(random.random() > 0.5 + recipient_factor/2 + donor_factor/2)
+        #TC1 = int(random.random() > 0.5 + recipient_factor/2 + donor_factor/2)
         #if random.random() > 0.2:
-        #    PC1 = int(random.random() > recipient_factor/2 + donor_factor/2)
+        #    TC1 = int(random.random() > recipient_factor/2 + donor_factor/2)
         #else:
-        #    PC1 = int(random.random() > 0.5)
-        PC1 = int(random.random() > recipient_factor/2 + donor_factor/2)
+        #    TC1 = int(random.random() > 0.5)
+        TC1 = int(random.random() > recipient_factor/2 + donor_factor/2)
         #feature_frequency = random.uniform(feature_frequency_range[0], feature_frequency_range[1]) #test
         #PC2 = int(random.random() < feature_frequency) #test
 
@@ -84,7 +84,7 @@ def survival_data_simulation_covariates(instances=10000,total_features=100,predi
 
         #P1_values.append(P1)
         #P2_values.append(P2)
-        PC1_values.append(PC1)
+        TC1_values.append(TC1)
         #PC2_values.append(PC2) #test
         patient_censoring_times.append(patient_censoring_time)
         administrative_censoring_times.append(administrative_censoring_time)
@@ -118,7 +118,7 @@ def survival_data_simulation_covariates(instances=10000,total_features=100,predi
 
     # Create a DataFrame to store the data
     df = pd.DataFrame({
-        'PC_1': PC1_values,
+        'TC_1': TC1_values,
         #'PC_2': PC2_values, #test
         'C_1': recipient_factors,
         'C_2': donor_factors,
@@ -134,7 +134,7 @@ def survival_data_simulation_covariates(instances=10000,total_features=100,predi
 
 
     data = pd.DataFrame({
-        'PC_1': PC1_values,
+        'TC_1': TC1_values,
         #'PC_2': PC2_values, #test
         'C_1': recipient_factors,
         'C_2': donor_factors,

diff --git a/src/skfibers/experiments/survival_sim_simple.py b/src/skfibers/experiments/survival_sim_simple.py
@@ -69,8 +69,8 @@ def survival_data_simulation(instances=10000, total_features=100, predictive_fea
             df.at[i,col] = 1
 
     #for low risk instances, fill in predictive features
-    for i in range(hr_count,len(low_binary_list)): #for each unique binary combo for low risk
-        binary_string = low_binary_list[i]
+    for i in range(hr_count,hr_count + len(low_binary_list)): #for each unique binary combo for low risk
+        binary_string = low_binary_list[i - hr_count]
         for col, value in zip(predictive_names, [int(bit) for bit in binary_string]):
             df.at[i, col] = value
 

diff --git a/src/skfibers/fibers.py b/src/skfibers/fibers.py
diff --git a/src/skfibers/methods/bin.py b/src/skfibers/methods/bin.py
diff --git a/src/skfibers/methods/data_handling.py b/src/skfibers/methods/data_handling.py
@@ -4,7 +4,7 @@
 def prepare_data(df,outcome_label,censor_label,covariates):
     # Make list of feature names (i.e. columns that are not outcome, censor, or covariates)
     feature_names = list(df.columns)
-    if censor_label != None:
+    if covariates != None:
         exclude = covariates + [outcome_label,censor_label]
     else:
         exclude = [outcome_label,censor_label]
@@ -14,6 +14,7 @@ def prepare_data(df,outcome_label,censor_label,covariates):
     cols_to_drop = []
     for col in feature_names:
         if len(df[col].unique()) == 1:
+            print(df[col])
             cols_to_drop.append(col)
     df.drop(columns=cols_to_drop, inplace=True)
     feature_names = [item for item in feature_names if item not in cols_to_drop]
@@ -26,7 +27,7 @@ def calculate_residuals(df,covariates,feature_names,outcome_label,censor_label):
     # Fit a Cox proportional hazards model to the DataFrame
     var_list = covariates+[outcome_label,censor_label]
     logging.info("Fitting COX Model")
-    cph = CoxPHFitter()
+    cph = CoxPHFitter(penalizer=0.0001)
     cph.fit(df.loc[:,var_list], duration_col=outcome_label, event_col=censor_label, show_progress=True)
 
     # Calculate the residuals using the Schoenfeld residuals method

diff --git a/src/skfibers/methods/population.py b/src/skfibers/methods/population.py
diff --git a/src/skfibers/methods/util.py b/src/skfibers/methods/util.py
@@ -346,7 +346,7 @@ def plot_adj_HR_metric_product(residuals,bin_pop,show=True,save=False,output_fol
 
 
 def cox_prop_hazard(bin_df, outcome_label, censor_label): #make bin variable beetween 0 and 1
-    cph = CoxPHFitter()
+    cph = CoxPHFitter(penalizer=0.0001)
     cph.fit(bin_df,outcome_label,event_col=censor_label, show_progress=False)
     return cph.summary