Commit b501bb03 authored by albasanzbus's avatar albasanzbus

Cambios2

parent 607f73b7
......@@ -58,7 +58,7 @@
{
"cell_type": "markdown",
"source": [
"Invertimos las métricas de network proximity, ya que para estas un valor más bajo indica mejor “candidatura”, pero debemos homogeneizar el criterio de selección.\n"
"Invertimos las métricas de network proximity, ya que en estas un valor más bajo indica una mejor “candidatura”. Sin embargo, debemos homogeneizar el criterio de selección.\n"
],
"metadata": {
"collapsed": false
......@@ -114,7 +114,7 @@
{
"cell_type": "markdown",
"source": [
"Generamos el ranking de las métricas, de tal forma que las métricas con valores más altos (mejor), tengan un ranking más alto (mejor)."
"Generamos el ranking de las métricas de forma que, a mayor valor (mejor métrica), mayor ranking (mejor posición)."
],
"metadata": {
"collapsed": false
......@@ -135,7 +135,7 @@
{
"cell_type": "markdown",
"source": [
"Es necesario invertir los ranks para que el mejor sea el más grande (si hay N filas, el mejor pasa a valer N)."
"Es necesario invertir los rankings para que el mejor tenga el valor más alto (si hay N filas, el mejor pasa a valer N)."
],
"metadata": {
"collapsed": false
......@@ -158,7 +158,7 @@
{
"cell_type": "markdown",
"source": [
"Se suman los ranks de las métricas, y se normalizan a [0‒1] para que el mejor valor sea 1."
"Se suman los rankings de las métricas y se normalizan en el rango [0‒1], de forma que el mejor valor sea 1."
],
"metadata": {
"collapsed": false
......@@ -244,7 +244,7 @@
{
"cell_type": "markdown",
"source": [
"# Comparar con predicciones XGBoost Alzheimer"
"## 2.1 Comparar con predicciones XGBoost Alzheimer"
],
"metadata": {
"collapsed": false
......@@ -253,7 +253,7 @@
{
"cell_type": "markdown",
"source": [
"Procedemos a comparar las predicciones de XGBoost para Alzheimer con el CRANK score."
"Procedemos a comparar las predicciones de XGBoost para Alzheimer con el Crank Score"
],
"metadata": {
"collapsed": false
......@@ -401,7 +401,7 @@
{
"cell_type": "markdown",
"source": [
"# Comparar con predicciones XGBoost Esquizofrenia"
"## 2.2 Comparar con predicciones XGBoost Esquizofrenia"
],
"metadata": {
"collapsed": false
......@@ -410,7 +410,7 @@
{
"cell_type": "markdown",
"source": [
"Procedemos a comparar las predicciones de XGBoost para Esquizofrenia con el CRANK score."
"Procedemos a comparar las predicciones de XGBoost para Esquizofrenia con el Crank Score."
],
"metadata": {
"collapsed": false
......@@ -528,7 +528,7 @@
{
"cell_type": "markdown",
"source": [
"# Gráfico de barras de los CRANK scores"
"## 2.3 Gráfico de barras de los CRANK scores"
],
"metadata": {
"collapsed": false
......@@ -537,7 +537,7 @@
{
"cell_type": "markdown",
"source": [
"Creamos un gráfico de barras que compare el número de pares enfermedad-fármaco por clase (0 y 1) en los casos donde el CRANK score es mayor a 0.9 para Alzheimer y Esquizofrenia."
"Creamos un gráfico de barras que compara el número de pares enfermedad–fármaco por clase (0 y 1) en los casos donde el Crank Score es mayor a 0.9 para Alzheimer y Esquizofrenia."
],
"metadata": {
"collapsed": false
......
......@@ -28,7 +28,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 1. LIBRERÍAS"
"# 1 LIBRERÍAS"
]
},
{
......@@ -43,16 +43,16 @@
"outputs": [],
"source": [
"import dask.dataframe as dd\n",
"import numpy as np\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"import numpy as np"
"import seaborn as sns"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# 2. UNIÓN DE TABLAS"
"# 2 UNIÓN DE TABLAS"
]
},
{
......@@ -107,7 +107,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Hacemos un inner join para quedarnos con las filas presentes en ambas tablas para aquellos pares enfermedad - fármaco. Se hizo de esta manera para reducir el tamaño del DataFrame final."
"Hacemos un inner join para quedarnos con las filas presentes en ambas tablas para aquellos pares enfermedad-fármaco. Se hizo de esta manera para reducir el tamaño del DataFrame final."
]
},
{
......@@ -642,7 +642,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Al no ser muchas filas, se pueden almacenar en 1 unica partición para trabajar mejor con los datos, hacer .compute() y usar pandas en vez de Dask."
"Al no ser muchas filas, se pueden almacenar en 1 única partición para trabajar mejor con los datos, hacer .compute() y usar pandas en vez de Dask."
]
},
{
......@@ -706,7 +706,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Como hemos hecho .compute(), estamos trabajando con pandas, por lo que podemos hacer .describe() para obtener más informacion de los datos"
"Como hemos hecho .compute(), estamos trabajando con pandas, por lo que podemos hacer .describe() para obtener más información de los datos"
]
},
{
......@@ -1171,11 +1171,9 @@
}
],
"source": [
"# Número de enfermedades únicas\n",
"num_enfermedades = df_unificado['disease_id'].nunique()\n",
"print(f\"Número de enfermedades únicas: {num_enfermedades}\")\n",
"\n",
"# Número de fármacos únicos\n",
"num_farmacos = df_unificado['drug_id'].nunique()\n",
"print(f\"Número de fármacos únicos: {num_farmacos}\")"
]
......@@ -1318,7 +1316,7 @@
{
"cell_type": "markdown",
"source": [
"Observamos que, al unir las tabla, la proporcion de pares enfermedad-fármaco en class 1 ha aumentando respecto a la tabla base dr_gnns, lo que ayudará al metamodelo. Aún así, se observa un clase desequilibrio de clases."
"Observamos que, al unir las tabla, la proporción de pares enfermedad-fármaco en class 1 ha aumentando respecto a la tabla base dr_gnns, lo que ayudará al metamodelo. Aún así, se observa un claro desequilibrio de clases."
],
"metadata": {
"collapsed": false
......@@ -1747,9 +1745,6 @@
"execution_count": 23,
"outputs": [],
"source": [
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"\n",
"def plot_boxplot(df, column, class_col='class'):\n",
" data = df[[column, class_col]].dropna(subset=[column])\n",
" if data.empty:\n",
......@@ -2063,11 +2058,9 @@
" print(f\"No hay datos para la columna '{column}'.\")\n",
" return\n",
"\n",
" # Calcular el histograma\n",
" range_bins = (data.min(), data.max())\n",
" hist_values, bin_edges = np.histogram(data, bins=bins, range=range_bins)\n",
"\n",
" # Graficar\n",
" plt.style.use(\"seaborn-v0_8-white\")\n",
" fig, ax = plt.subplots(figsize=(8, 6), facecolor=\"white\")\n",
"\n",
......@@ -32,7 +32,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 1. LIBRERÍAS"
"# 1 LIBRERÍAS"
]
},
{
......@@ -53,7 +53,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 2. CARGA DE LA TABLA UNIFICADA"
"# 2 CARGA DE LA TABLA UNIFICADA"
]
},
{
......@@ -123,9 +123,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Eliminamos los pares enfermedad–fármaco que contienen valores nulos en alguna de las métricas.\n",
"Como vimos anteriormente, estos nulos aparecen en las métricas del modelo Network Proximity.\n",
"Dado que representan un porcentaje reducido (entre 1% y 3%), su eliminación no afectará significativamente al tamaño de la muestra."
"Eliminamos los pares enfermedad–fármaco que contienen valores nulos en alguna de las métricas. Como vimos anteriormente, estos nulos aparecen en las métricas del modelo Network Proximity. Dado que representan un porcentaje reducido (entre 1% y 3%), su eliminación no afectará significativamente al tamaño de la muestra."
]
},
{
......@@ -156,7 +154,7 @@
{
"cell_type": "markdown",
"source": [
"# 4. ANÁLISIS DE LA TABLA PREPROCESADA"
"# 4 ANÁLISIS DE LA TABLA PREPROCESADA"
],
"metadata": {
"collapsed": false
......@@ -437,7 +435,7 @@
{
"cell_type": "markdown",
"source": [
"# 5. GUARDADO DE LA TABLA PREPROCESADA"
"# 5 GUARDADO DE LA TABLA PREPROCESADA"
],
"metadata": {
"collapsed": false
......
......@@ -32,7 +32,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 1. LIBRERÍAS"
"# 1 LIBRERÍAS"
]
},
{
......@@ -52,7 +52,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 2. CARGA DE DATOS"
"# 2 CARGA DE DATOS"
]
},
{
......@@ -102,7 +102,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 3. PREPARACIÓN DE LOS DATOS"
"# 3 PREPARACIÓN DE LOS DATOS"
]
},
{
......@@ -964,14 +964,14 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 4. ANÁLISIS EXPLORATORIO"
"# 4 ANÁLISIS EXPLORATORIO"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 4.1. INFORMACIÓN GENERAL"
"## 4.1 INFORMACIÓN GENERAL"
]
},
{
......@@ -998,7 +998,6 @@
}
],
"source": [
"# Información de Gnn_DiseaseDrug\n",
"print(\"Dask DataFrame:\", Gnn_DiseaseDrug)\n",
"\n",
"print(\"Columnas:\", Gnn_DiseaseDrug.columns)"
......@@ -1097,12 +1096,8 @@
}
],
"source": [
"# Número de enfermedades únicas\n",
"num_enfermedades = Gnn_DiseaseDrug['disease_id'].nunique().compute()\n",
"\n",
"# Número de fármacos únicos\n",
"num_farmacos = Gnn_DiseaseDrug['drug_id'].nunique().compute()\n",
"\n",
"print(f\"Número de enfermedades únicas: {num_enfermedades}\")\n",
"print(f\"Número de fármacos únicos: {num_farmacos}\")"
]
......@@ -1227,7 +1222,7 @@
}
},
"source": [
"Queremos obtener una tabla con el nombre de la enfermedad (disease_name) correspondiente a cada id (disease_id). Para ello, cargamos la tabla de enfermedades, la cual hemos descargado anteriormente en formato .parquet a través de **Exportar_Tabla_disease.ipynb**, y hacemos un LEFT JOIN con la tabla anterior."
"Queremos obtener una tabla con el nombre de la enfermedad (disease_name) correspondiente a cada id (disease_id). Para ello, cargamos la tabla de enfermedades, la cual hemos descargado anteriormente en formato .parquet a través de **Export_Table_disease.ipynb**, y hacemos un LEFT JOIN con la tabla anterior."
]
},
{
......@@ -1495,7 +1490,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"## 4.6. OUTLIERS - BOXPLOTS"
"## 4.6 OUTLIERS - BOXPLOTS"
]
},
{
......@@ -1700,7 +1695,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"## 4.7. DISTRIBUCIONES - HISTOGRAMAS"
"## 4.7 DISTRIBUCIONES - HISTOGRAMAS"
]
},
{
......@@ -2073,7 +2068,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"## 4.9. SCATTER PLOT"
"## 4.9 SCATTER PLOT"
]
},
{
......@@ -24,7 +24,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 1. LIBRERÍAS"
"# 1 LIBRERÍAS"
]
},
{
......@@ -50,14 +50,14 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 2. CARGA DE DATOS"
"# 2 CARGA DE DATOS"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Definimos la ruta del archivo Parquet, el cual ha sido creado a través de **Exportar_Tabla_InformationPath.ipynb**"
"Definimos la ruta del archivo Parquet, el cual ha sido creado a través de **Export_Table_InformationPath.ipynb**"
]
},
{
......@@ -96,7 +96,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 3. PREPARACIÓN DE LOS DATOS"
"# 3 PREPARACIÓN DE LOS DATOS"
]
},
{
......@@ -108,7 +108,7 @@
}
},
"source": [
"## 3.1. INFORMACIÓN GENERAL"
"## 3.1 INFORMACIÓN GENERAL"
]
},
{
......@@ -181,7 +181,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Buscamos reconstruir la tabla exportada, de tal forma que tenga todos los pares enfermedad-fármaco y por qué vía (path) se llega a esa combinación. Es decir, se creará una columna por cada path, estableciendo un 1 si existe esa vía para dicho par, y un 0 si no existe.\n"
"Buscamos reconstruir la tabla exportada, de tal forma que tenga todos los pares enfermedad-fármaco y a través de que vía (path) se llega a esa combinación. Es decir, se creará una columna por cada path, estableciendo un 1 si existe esa vía para dicho par, y un 0 si no existe.\n"
]
},
{
......@@ -1236,7 +1236,7 @@
}
},
"source": [
"# 4. ANÁLISIS EXPLORATORIO DE LOS DATOS"
"# 4 ANÁLISIS EXPLORATORIO DE LOS DATOS"
]
},
{
......@@ -1248,7 +1248,7 @@
}
},
"source": [
"## 4.1. INFORMACIÓN GENERAL"
"## 4.1 INFORMACIÓN GENERAL"
]
},
{
......@@ -1322,7 +1322,7 @@
}
},
"source": [
"## 4.2. DUPLICADOS"
"## 4.2 DUPLICADOS"
]
},
{
......@@ -1379,7 +1379,7 @@
}
},
"source": [
"## 4.3. NÚMERO DE FILAS Y COLUMNAS"
"## 4.3 NÚMERO DE FILAS Y COLUMNAS"
]
},
{
......@@ -1416,7 +1416,7 @@
}
},
"source": [
"## 4.4. VALORES NULOS"
"## 4.4 VALORES NULOS"
]
},
{
......@@ -1517,7 +1517,7 @@
}
},
"source": [
"## 4.5. DISTRIBUCIONES - HISTOGRAMAS"
"## 4.5 DISTRIBUCIONES - HISTOGRAMAS"
]
},
{
......@@ -1976,7 +1976,7 @@
}
},
"source": [
"## 4.6. MATRIZ DE CORRELACIÓN"
"## 4.6 MATRIZ DE CORRELACIÓN"
]
},
{
......@@ -2061,7 +2061,7 @@
}
},
"source": [
"## 4.7. ANÁLISIS DE FRECUENCIA"
"## 4.7 ANÁLISIS DE FRECUENCIA"
]
},
{
......
This diff is collapsed.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment