# Data Este directorio contiene los datos referentes a los nodos y enlaces empleados para generar las redes estudiadas. ## Nodes | DATOS | DESCRIPCIÓN | IDENTIFICADORES | TOTAL | FUENTE | |------------------|----------------------------------------------------------------|---------------------------------------------------------|--------|-----------| | Enfermedades (dis.tsv) | Datos referentes a enfermedades, incluyendo su nombre e identificador | Concept Unique Identifiers (CUI) de Unified Medical Language System (UMLS) | 30.731 | UMLS | | Genes (gen.tsv) | Datos referentes a genes, incluyendo su símbolo y su identificador | Identificadores de National Center of Biotechnology Information (NCBI) | 20.610 | NCBI | | Proteínas (prot.tsv) | Datos referentes a proteínas, incluyendo su identificador | Número de accesión en UniProt | 18.521 | UniProt | | Fármacos (dru.tsv) | Datos referentes a fármacos, incluyendo su nombre y su identificador | Identificador ChEMBL | 3.944 | ChEMBL | ## Links | DATOS | DESCRIPCIÓN | IDENTIFICADORES | TOTAL | FUENTE | |-----------------------|------------------------------------------------------------------------------------------|------------------------------------------------------|---------|-------------------------------------------------------------------------| | Enfermedad – Fármaco (dis_dru_the.tsv) | Asociaciones entre enfermedades y fármacos empleados para su tratamiento | CUI de UMLS – Identficador ChEMBL | 52.179 | Comparative Toxicogenomics Database (CTD) | | Enfermedad – Gen (dis_gen.tsv) | Asociaciones entre enfermedades y genes cuya mutación desencadena la enfermedad | CUI de UMLS – Identificador de NCBI | 358.209 | DisGeNET | | Enfermedad – Proteína (dis_prot.tsv) | Asociaciones entre enfermedades y proteínas producidas a partir de sus genes patológicos | CUI de UMLS – Número de accesión en UniProt | 361.325 | DisGeNET | | Gen – Proteína (gen_pro.tsv) | Asociaciones entre genes y proteínas producidas a partir del gen | Identificador de NCBI – Número de accesión en UniProt | 15.770 | DisGeNET | | Proteína – Proteína (pro_pro.tsv) | Asociaciones entre proteínas que interaccionan físicamente entre sí | Número de accesión en UniProt – Número de accesión en UniProt | 439.863 | DisGeNET | | Fármaco – Proteína (dru_pro.tsv) | Asociaciones entre fármacos y las proteínas dianas a las que afectan | Identificador ChEMBL – Número de accesión en UniProt | 5.946 | ChEMBL y DrugBank | | Enfermedad – Síntoma (dse_sym.tsv) | Asociaciones entre enfermedades y los síntomas que desarrollan | CUI de UMLS – Concept Unique Identifiers de UMLS | 318.550 | ChEMBL y (Side Effect Resource) SIDER | ## Filtrado de síntomas Se incluye el archivo con la relación entre TUIs, CUIs y STYs (**cuis_stys.tsv**) y el Jupyter Notebook (**Archivo síntomas.ipynb**) empleados para realizar el filtrado del archivo **dse_sym.tsv**, que da como reultado el archivo **dse_sym_limpio.tsv**. #### Motivo del filtrado La información referente a los síntomas se almacena en un archivo que contiene asociaciones entre enfermedades y síntomas, ambos grupos identificados a través de Concept Unique Identifiers (CUIs) de Unique Medical Language System (UMLS). Una de las características de este sistema es el empleo de un mismo CUI para identificar un conjunto de nomenclaturas consideradas como sinónimas o variantes léxicas. Por tanto, si un término o conjunto de términos es polisémico, su CUI también lo será.

Sin embargo, esta propiedad supone una normalización excesiva en ciertas ocasiones, de forma que un CUI puede llegar a incluir sinónimos no verdaderos. Esta ambigüedad en el sistema de identificación provoca que ciertos CUIs se encuentren tanto en la columna de enfermedades como en la columna de síntomas en el fichero de datos. Por lo tanto, aparecen relaciones interpretadas como enfermedad – enfermedad o síntoma – síntoma durante la generación de la red bipartita de enfermedades y síntomas. Para corregir este inconveniente, se realiza un filtrado de los elementos de ambas columnas a partir de los Type Unique Identifiers (TUIs). Los TUIs son los identificadores empleados en UMLS para clasificar los términos en función de una amplia serie de categorías biomédicas denominadas Semantic Types (STYs), permitiendo una categorización más específica.