README.md 5.24 KB
Newer Older
Maria Marin's avatar
Maria Marin committed
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
# Data
Este directorio contiene los datos referentes a los nodos y enlaces empleados para generar las redes estudiadas.

## Nodes

| DATOS            | DESCRIPCIÓN                                                    | IDENTIFICADORES                                         | TOTAL  | FUENTE    |
|------------------|----------------------------------------------------------------|---------------------------------------------------------|--------|-----------|
| Enfermedades (dis.tsv)   | Datos referentes a enfermedades, incluyendo su nombre e identificador | Concept Unique Identifiers (CUI) de Unified Medical Language System (UMLS) | 30.731 | UMLS |
| Genes (gen.tsv)            | Datos referentes a genes, incluyendo su símbolo y su identificador     | Identificadores de National Center of Biotechnology Information (NCBI)     | 20.610 | NCBI |
| Proteínas (prot.tsv)     | Datos referentes a proteínas, incluyendo su identificador               | Número de accesión en UniProt                                            | 18.521 | UniProt |
| Fármacos (dru.tsv)       | Datos referentes a fármacos, incluyendo su nombre y su identificador    | Identificador ChEMBL                                                    | 3.944  | ChEMBL |


## Links

| DATOS                 | DESCRIPCIÓN                                                                              | IDENTIFICADORES                                      | TOTAL   | FUENTE                                                                  |
|-----------------------|------------------------------------------------------------------------------------------|------------------------------------------------------|---------|-------------------------------------------------------------------------|
| Enfermedad – Fármaco (dis_dru_the.tsv)  | Asociaciones entre enfermedades y fármacos empleados para su tratamiento                | CUI de UMLS – Identficador ChEMBL                    | 52.179  | Comparative Toxicogenomics Database (CTD)                           |
| Enfermedad – Gen (dis_gen.tsv)   | Asociaciones entre enfermedades y genes cuya mutación desencadena la enfermedad         | CUI de UMLS – Identificador de NCBI                 | 358.209 | DisGeNET                                                           |
| Enfermedad – Proteína (dis_prot.tsv) | Asociaciones entre enfermedades y proteínas producidas a partir de sus genes patológicos | CUI de UMLS – Número de accesión en UniProt         | 361.325 | DisGeNET                                                          |
| Gen – Proteína (gen_pro.tsv)       | Asociaciones entre genes y proteínas producidas a partir del gen                        | Identificador de NCBI – Número de accesión en UniProt | 15.770  | DisGeNET                                                           |
| Proteína – Proteína (pro_pro.tsv)  | Asociaciones entre proteínas que interaccionan físicamente entre sí                     | Número de accesión en UniProt – Número de accesión en UniProt | 439.863 | DisGeNET                                                           |
Maria Marin's avatar
Maria Marin committed
23 24
| Fármaco – Proteína (dru_pro.tsv)   | Asociaciones entre fármacos y las proteínas dianas a las que afectan                    | Identificador ChEMBL – Número de accesión en UniProt | 5.946   | ChEMBL y DrugBank                                           |
| Enfermedad – Síntoma (dse_sym.tsv)  | Asociaciones entre enfermedades y los síntomas que desarrollan                           | CUI de UMLS – Concept Unique Identifiers de UMLS    | 318.550 | ChEMBL y (Side Effect Resource) SIDER                        |
Maria Marin's avatar
Maria Marin committed
25 26 27 28

## Filtrado de síntomas
La información referente a los síntomas se almacena en un archivo que contiene asociaciones entre enfermedades y síntomas, ambos grupos identificados a través de Concept Unique Identifiers (CUIs) de Unique Medical Language System (UMLS).
Una de las características de este sistema es el empleo de un mismo CUI para identificar un conjunto de nomenclaturas consideradas como sinónimas o variantes léxicas. Por tanto, si un término o conjunto de términos es polisémico, su CUI también lo será. 
Maria Marin's avatar
Maria Marin committed
29 30
<br><br>
Sin embargo, esta propiedad supone una normalización excesiva en ciertas ocasiones, de forma que un CUI puede llegar a incluir sinónimos no verdaderos. 
Maria Marin's avatar
Maria Marin committed
31
Esta ambigüedad en el sistema de identificación provoca que ciertos CUIs se encuentren tanto en la columna de enfermedades como en la columna de síntomas en el fichero de datos. Por lo tanto, aparecen relaciones interpretadas como enfermedad – enfermedad o síntoma – síntoma durante la generación de la red bipartita de enfermedades y síntomas. 
Maria Marin's avatar
Maria Marin committed
32
<br><br>
Maria Marin's avatar
Maria Marin committed
33
Para corregir este inconveniente, se realiza un filtrado de los elementos de ambas columnas a partir de los Type Unique Identifiers (TUIs). Los TUIs son los identificadores empleados en UMLS para clasificar los términos en función de una amplia serie de categorías biomédicas denominadas Semantic Types (STYs), permitiendo una categorización más específica.
Maria Marin's avatar
Maria Marin committed
34 35
<br><br>
Se incluye el archivo con la relación entre TUIs, CUIs y STYs (**cuis_stys.tsv**) y el Jupyter Notebook (**Archivo síntomas.ipynb**) empleados para realizar el filtrado del archivo **dse_sym.tsv**, que da como reultado el archivo dse_sym_limpio.tsv