Adding final results finding patterns

b5e1a75c · Belen Otero Carrasco · b5e1a75c · b5e1a75c · b5e1a75c · b5e1a75c
Commit b5e1a75c authored Aug 30, 2024 by Belen Otero Carrasco
16 changed files
--- a/Code Approach 1 and 2 (2.1 - 2.2)/compute_distance_mat.py
+++ b/Code Approach 1 and 2 (2.1 - 2.2)/compute_distance_mat.py
--- a/Code Approach 1 and 2 (2.1 - 2.2)/metrics.py
+++ b/Code Approach 1 and 2 (2.1 - 2.2)/metrics.py
--- a/Code Approach 1 and 2 (2.1 - 2.2)/patterns.py
+++ b/Code Approach 1 and 2 (2.1 - 2.2)/patterns.py
--- a/Code Approach 1 and 2 (2.1 - 2.2)/similarityAllProteins.py
+++ b/Code Approach 1 and 2 (2.1 - 2.2)/similarityAllProteins.py
--- a/Code Approach 1 and 2 (2.1 - 2.2)/summary.py
+++ b/Code Approach 1 and 2 (2.1 - 2.2)/summary.py
+import pandas as pd
+import time
+import numpy as np
+import re
+from ast import literal_eval
+from find_patterns import substitute_or_remove_prot_id
+def readData(archivoEntrada, enfermedad,patrones_file,Sal):
+    """
+    Reads data from an Excel file, filters it based on the disease, and performs additional processing.
+
+    Parameters:
+    - archivo_entrada (str): Path to the Excel file.
+    - enfermedad (str): Disease ID for filtering.
+    - patrones_file (str): Path to the file containing patterns.
+    - Sal: Output file extension
+    Returns:
+    - data (pd.DataFrame): Processed DataFrame based on the given parameters.
+    """
+    data = pd.read_excel(archivoEntrada)
+
+    if enfermedad:
+        data = data.loc[data["disease_id"] == enfermedad]
+
+    dataB = pd.read_csv(patrones_file)
+
+    print(len(data))
+    filt_data = len(data)
+    alz_filt_data = len(dataB)
+    print("Proteins discarded after the main filter: " + str(filt_data - len(data)))
+    print("Proteins discarded after the common Alzheimer's filter: " + str(alz_filt_data - len(dataB)))
+
+    dataC = {}
+    dataz={}
+    daa = dataB["Patron"].unique()
+    das={}
+    pos={}
+    deas={}
+    for u in daa:
+        if len(u) > 3:
+          kk=data.protein_sequence.str.contains(u)
+          das[u] = data[kk]["protein_id"].to_list()
+          pos[u]= data[kk]['protein_sequence'].str.find(u).to_list()
+          deas[u]=data[kk]['disease_id'].to_list()
+          print(len(pos[u]))
+          print(len(das[u]))
+          dataC[u]=[[[das[u][ii],pos[u][ii]],deas[u][ii]] for ii in range(0,len(das[u]))]
+          res = []
+          for row in dataC[u]:
+              matching_sublist = next((sublist for sublist in res if sublist[0] == row[0]), None)
+
+              if matching_sublist is not None:
+            # If a matching sublist is found, append only non-matching elements to it
+                  matching_sublist[1].append(row[1])
+              else:
+            # If no matching sublist is found, create a new sublist with only non-matching elements
+                 res.append([row[0],row[1:]])
+          dataC[u]=[sublist[0] for sublist in res]
+          dataz[u]=[sublist[1] for sublist in res]
+    dataG = pd.DataFrame({"pattern": dataC.keys(),"proteins":dataC.values(),"desease_id":dataz.values()})
+    dataG.to_excel("ProtByPattern"+Sal+".xlsx")
+
+    sequences = data["protein_sequence"]
+    return data
+def add_protein_info_to_data(main_data_path, patterns_info_path, protein_names_path):
+    """
+    Add protein names and protein information from the original pattern file and the names Dataset to a DataFrame based on matching patterns.
+
+    Parameters:
+    - main_data_path (str): The path to the Excel file containing the main data.
+    - patterns_info_path (str): The path to the CSV file containing patterns and protein information.
+    - protein_names_path (str): The path to the CSV file containing protein names.
+
+    Returns:
+    None: The function updates the provided Excel file with additional protein information.
+
+    Example:
+    ```python
+    add_protein_info_to_data("main_data.xlsx", "patterns_info.csv", "protein_names.csv")
+    ```
+
+    Note:
+    - The function assumes that the provided Excel file ('main_data_path') contains a 'pattern' column.
+    - The 'patterns_info_path' CSV file is expected to have columns 'Patron', 'Proteina', and 'Posiciones'.
+    - The 'protein_names_path' CSV file is expected to have columns 'Entry' and 'Entry_Name'.
+    """
+
+    # Read data from files
+    main_data = pd.read_excel(main_data_path)
+    patterns_info = pd.read_csv(patterns_info_path)
+    protein_names = pd.read_csv(protein_names_path)
+
+    # Group patterns in 'patterns_info' DataFrame
+    patterns_grouped = patterns_info.groupby("Patron")
+
+    # Initialize columns in 'main_data' DataFrame
+    main_data["protein_names"] = ""
+    main_data["proteins_treat"] = "{}"
+    main_data["names_Treat"]=""
+    for pattern, group_data in patterns_grouped:
+    # Iterate over patterns in 'patterns_info'
+       for index, row in group_data.iterrows():
+         protein_id = row["Proteina"]
+         positions = row["Posiciones"]
+
+         # Find matching rows in 'main_data' DataFrame
+         matching_rows = main_data[main_data["pattern"] == pattern]
+
+         # Initialize or get the current 'proteins_treat' list
+         current_proteins_treat = {}
+
+         # Update 'proteins_treat' field for each matching row
+         for matching_index, matching_row in matching_rows.iterrows():
+            current_proteins_treat = literal_eval(matching_row["proteins_treat"]) if pd.notna(matching_row["proteins_treat"]) or matching_row["proteins_treat"] != "[]" else {}
+            current_proteins_treat.update({protein_id: literal_eval(positions)})
+            main_data.at[matching_index, "proteins_treat"] = str(current_proteins_treat)
+            matching_rows.at[matching_index, "proteins_treat"] = str(current_proteins_treat)
+       print(matching_rows["proteins_treat"].apply(
+            lambda lst: [protein_idee for protein_idee, _ in literal_eval(lst).items()]))
+       main_data.loc[main_data["pattern"] == pattern, "names_Treat"] = matching_rows["proteins_treat"].apply(
+            lambda lst: [protein_names[protein_names["Entry"] == protein_idee]["Entry_Name"].to_list() if protein_names[protein_names["Entry"] == protein_idee]["Entry_Name"].to_list() != [] else ["N/A"] for protein_idee, _ in literal_eval(lst).items()]
+        )
+       main_data.loc[main_data["pattern"] == pattern, "protein_names"] = matching_rows["proteins"].apply(
+            lambda lst: [protein_names[protein_names["Entry"] == protein_idee]["Entry_Name"].to_list() if protein_names[protein_names["Entry"] == protein_idee]["Entry_Name"].to_list() != [] else ["N/A"] for protein_idee, _ in literal_eval(lst)]
+        )
+    # Save the updated data
+    main_data_base_name = main_data_path.split(".")[0]
+    main_data.to_excel(f"{main_data_base_name}_summary.xlsx", index=False) 
+
+
+        
+def add_entry_name(archivoEntrada,protein_name_file,archNom):
+     """
+     Adds entry names to the DataFrame based on an additional CSV file and performs additional processing.
+
+     Parameters:
+     - archivo_entrada (str): Path to the Excel file.
+     - protein_name_file (str): Path to the protein name CSV file.
+     - archNom (str): Path to the id sustitution file
+     
+     Returns:
+     - None
+     """
+     data = pd.read_excel(archivoEntrada)
+     dataB = pd.read_csv(protein_name_file, usecols=['Entry', "Entry_Name", "Protein_names", "Length"])
+     dataB = substitute_or_remove_prot_id(dataB, archNom, "na")
+     print("PASA")
+     dataB = dataB.reindex(columns=['Entry', "Entry_Name", "Length", "Protein_names"])
+     datas = dataB[dataB["Entry"].isin(data["protein_id"])]
+     datas.to_csv(archivoEntrada + "_nombre.csv")
+     doo = data[~(data["protein_id"].isin(dataB["Entry"]))]
+     doo.to_csv("Proteinas_sin_nombre")
+     #data.assign(lenght=datas["Length"].to_list())
+     #data.assign(name=datas["Protein names"].to_list())
+     #data.to_csv(archivoEntrada+"_nombre.csv")    
+if __name__=="__main__":
+       #data=add_entry_name("Data/data_cancers_desease.xlsx","Data/protein_name.csv","Data/nombres_sust.txt")
+       #data=pd.read_excel("Data/data_lung_cancer_desease.xlsx")
+       #dd=pd.read_excel("Data/data_lung_cancer_treatment.xlsx")
+       #dds=pd.concat([data,dd])
+       #dds.to_excel("Data/data_lung_cancer_desease_full.xlsx")
+       data=readData("Data/data_immune_desease.xlsx","","patronesIdenticos10Treat.csv","Immun01")
+       add_protein_info_to_data("ProtByPatternImmun01.xlsx","patronesIdenticos10Treat.csv","Data/protein_name.csv")
+            
--- a/Code statistical methods/Analysis of similarities - patterns significance - Simi_AA.ipynb
+++ b/Code statistical methods/Analysis of similarities - patterns significance - Simi_AA.ipynb
--- a/Code statistical methods/Analysis of similarities - patterns significance - Simi_AA2.ipynb
+++ b/Code statistical methods/Analysis of similarities - patterns significance - Simi_AA2.ipynb
--- a/Code statistical methods/Analysis of similarities - patterns significance - Simi_BLOSUM.ipynb
+++ b/Code statistical methods/Analysis of similarities - patterns significance - Simi_BLOSUM.ipynb
--- a/Code statistical methods/Analysis of similarities - patterns significance _ DR .ipynb
+++ b/Code statistical methods/Analysis of similarities - patterns significance _ DR .ipynb
--- a/Code statistical methods/Pattern found - Sankey plots.ipynb
+++ b/Code statistical methods/Pattern found - Sankey plots.ipynb
--- a/Input/autoimmune_protein_ids.xlsx
+++ b/Input/autoimmune_protein_ids.xlsx
--- a/Input/cancers_proteins_ids.xlsx
+++ b/Input/cancers_proteins_ids.xlsx
--- a/Input/data_cancers_disease.xlsx
+++ b/Input/data_cancers_disease.xlsx
--- a/Input/data_rare_disease.xlsx
+++ b/Input/data_rare_disease.xlsx
--- a/Input/protein_lung_cancer_C0007131.csv
+++ b/Input/protein_lung_cancer_C0007131.csv
--- a/Input/treatment_lung_cancer.xlsx
+++ b/Input/treatment_lung_cancer.xlsx