Tema: Clase 15 | ESTADÍSTICA I V - P11293-TEÓRICO-N0280-05-N01

Métricas para medir la bondad de modelos lineales

Introducción

En esta clase abordaremos 2 temas:

El primero está relacionado con nuevas métricas para medir la eficiencia en modelos de regresión lineal. En clases anteriores habíamos destacado el uso del estadístico R² como una forma de medir la eficiencia basado en los residuos, sin embargo, esta no es la única métrica (ni siquiera la mejor), las métricas que veremos en esta clase se basan en la probabilidad de distribución de los resultados, para lo cual introduciremos una nueva función de regresión.

En la segunda parte veremos cómo en base a estas métricas básicas se han construido otras métricas que toman el nombre de estimadores que tratan de balancear el ajuste del modelo con la complejidad, por lo que nos proveen un análisis más completo, esta sección analizaremos algunos de estos estimadores.

Likelihood

En estadística, la verosimilitud no es una probabilidad, sino una función de los parámetros del modelo que representa la probabilidad de observar un conjunto específico de datos, dados dichos parámetros. Mide la eficacia con la que una hipótesis o un modelo explica los datos observados, tratando estos como fijos y los parámetros del modelo como variables, lo cual es inverso al funcionamiento de la probabilidad condicional. La función de verosimilitud se utiliza para encontrar los valores más probables de los parámetros que generaron los datos mediante técnicas como la Estimación de Máxima Verosimilitud (EMV).

Estimación de máxima verosimilitud (MLE): este es un método común donde el objetivo es encontrar el valor del parámetro que maximiza la función de verosimilitud, encontrando así el valor del parámetro que hace que los datos observados sean más probables.

Grados de Libertad

Los grados de libertad son la combinación del número de observaciones de un conjunto de datos que varían de manera aleatoria e independiente menos las observaciones que están condicionadas a estos valores arbitrarios.
En otras palabras, los grados de libertad son el número de observaciones puramente libres (que pueden variar) cuando estimamos los parámetros.

De acuerdo a Szretter (2017) “Una vez que se tienen todas las variables, es de interés contar con un criterio numérico para resumir la bondad del ajuste, que un modelo lineal con un cierto subconjunto de covariables da a la variable dependiente observada. A partir de este criterio se podrán ranquear los modelos y elegir un conjunto de unos pocos buenos candidatos para estudiar luego en detalle.”

En general en la regresión podemos establecer 3 valores para cada observación:

ŷ = el valor de la predicción de acuerdo al modelo

y̅ = el valor medio o esperado para las observaciones

y= el valor de la observación.

La figura 1 clarifica estos conceptos.

figure_name — *Nota.* Tomado de Webster A. (2017)

Donde:

SSTo =Suma de cuadrados totales,es la suma de los cuadrados de las desviaciones de todas las observaciones, y_i, de su media.

SSReg = Suma de cuadrados regresión, le indica cuánto de la variación en la variable dependiente explicó su modelo

SSRes = Suma de cuadrados de los residuos, es el valor que no es explicado por el modelo

Cuando tratamos de comparar modelos la primera aproximación sería mediante el R² obtenido para cada uno de los distintos modelos con distinta cantidad de covariables. La fórmula del coeficiente de determinación se muestra en la figura siguiente.

Fórmula

Figura 2

Coeficiente de determinación para un modelo con p covariables. Prado A. (2025)

Nota. Adaptación de la fórmula de Webster A. (2000)

$R^{2} = 1 - (\frac{S S r e s}{S S T o})$

En la medida en la que el modelo sea más eficiente, la suma de cuadrado de los residuos va a ser más pequeña, llegando a 0 cuando el modelo es perfecto, en cuyo caso obtendríamos un R² sería igual a 1.

Resulta que comparar modelos usando el criterio de elegir aquél cuyo R²sea lo más grande posible equivale a elegir aquel que tenga la menor suma de cuadrados de residuos SSRes (ya que la suma de cuadrados total SSTo no depende de las covariables del modelo ajustado y por eso permanece constante).

Para mejorar el R² obtenido los analistas tratan de incluir una mayor cantidad de covariables, sean estas apropiadas para ajustar los datos o no. Es por esto, por lo que el criterio no es identificar el modelo con mayor R² (ese será siempre el modelo con todas las covariables disponibles) sino encontrar el punto a partir del cual no tiene sentido agregar más variables ya que estas no inciden en un aumento importante del R². Para encontrar este punto óptimo puede ser útil trazar un gráfico del R² en función de la cantidad de predictores. La siguiente figura explica el concepto.

R² Ajustado

Para entender esta métrica, es importante indicar los de cada una de las sumas de cuadrados mencionadas anteriormente, esto nos ayudará a calcular la media de las sumas de cuadrados, es una forma de hacer un promedio que pueda ser comparable de una suma de cuadrados a otra. La siguiente tabla presenta los valores.

Como el R² no toma en cuenta el número de variables en el modelo de regresión, un criterio de decisión mucho más objetivo es calcular y comparar modelos por medio del R²a, para esto partimos de la fórmula de la figura 2 usando la media de las sumas de cuadrados. Entonces notamos que los del denominador no varía con respecto a la cantidad de coeficientes, mientras que el numerador si será afectado.

Por lo tanto, el R²a se calculará con la siguiente fórmula

Figura 4

Fórmula de R²a

Creación del autor Alfonso Prado

Fórmula

$R^{2} a = 1 - (\frac{S S r e s / (n - p)}{S S T o / (n - 1)})$

Esta sería la fórmula para un modelo sin intercepto donde p representa el número de predictores. Para modelos con intercept los del numerador se calcularía como n-p-1.

De acuerdo a Szretter (2017), entonces buscamos el subconjunto de p − 1 covariables que maximicen el R²a, o un subconjunto de muchas menos covariables para las cuales R²a el incremento sea tan pequeño que no justifique la inclusión de las covariables adicionales.

Veamos un ejemplo en la predicción de precios de vivienda

#Creamos 5 modelos basado en distintas variables

house1 <- lm(valxSqFt ~ TUnits:GSqFt + Boro, data=housing)

house2 <- lm(valxSqFt ~TUnits+ GSqFt +Boro , data=housing)

house3 <- lm(valxSqFt ~TUnits* GSqFt +Boro , data=housing)

house4 <- lm(valxSqFt ~class*Boro , data=housing)

#De los cuales obtenemos la siguiente información

[1] "house1"

> summary(house1)$adj.r.squared

[1] 0.5823141

> length(house1$coefficients)

[1] 6

[1] "house2"

> summary(house2)$adj.r.squared

[1] 0.5999892

> length(house2$coefficients)

[1] 7

[1] "house3"

> summary(house3)$adj.r.squared

[1] 0.6028864

> length(house3$coefficients)

[1] 8

[1] "house4"

> summary(house4)$adj.r.squared

[1] 0.6093757

> length(house4$coefficients)

[1] 20

Del ejercicio anterior podemos notar que en la medida la cantidad de variables involucradas en cada modelo va aumentando la métrica de R²a aumenta, pero ya no es proporcional, en el modelo 4 tenemos 20 coeficientes y el incremento del R2a es insignificante.

15.2. Likelihood

El término a veces se lo traduce como probabilidad o verosimilitud. En general se refiere a la probabilidad de que una muestra provenga de una distribución dada. Recordando el concepto de la función PDF: Dada una distribución θ que tiene una media=μ y var= σ², la probabilidad de un valor específico es dada por la función de densidad de dicha distribución.

El se calcula como el producto de densidades de las observaciones. Cuando se hace una predicción se esperaría que el valor predicho caiga dentro de la distribución de la variable Y, en la medida en la que la probabilidad difiera de la distribución θ entendemos que el modelo no es bueno. Por ejemplo, suponga que usted tiene una variable de respuesta Y que sigue una distribución gaussiana θ como en la figura 5, suponga que usted está interesado en predecir cierto valor de la variable basado en determinadas características y al hacerlo encuentra que la salida Y tendría una probabilidad muy baja, obviamente deducimos que el modelo ha fallado en predecir adecuadamente.

Pero, como la probabilidad PDF para un valor dado es generalmente baja, el producto de estas va a ser muy muy bajo, por lo que se estila hacer una transformación logarítmica conocida como el “log-likelihood”. Para esto recordemos una de las propiedades de los logaritmos.

Si se usa logaritmos naturales (base e) obtendríamos las fórmulas del como mostramos en la siguiente figura, donde π representa la función de producto de las probabilidades.

Figura 7

Fórmulas likelihood como producto (a) y log-likelihood como suma (b). Prado ( 2025)

Adaptación de la fórmula para la resolución de likelihood Faraway (2014)

(a)

(b)

En otras palabras, responde a la pregunta: "¿Cuál es la probabilidad de observar estos datos, dados estos parámetros?

Estimadores

Existen otros estimadores que nos ayudan a visualizar el mejor modelo basado en el total de las K covariables (el más grande posible) que incluya las covariables importantes de modo que en un modelo completo la estimación de la varianza del error sea insesgada.

Los principales estimadores son:

AIC : Criterio de Akaike

BIC : Criterio Bayesiano de Schwartz

CP: Cp de Mallows

Todos intentan resolver este problema introduciendo un término de penalización para el número de parámetros en el modelo.

Desafortunadamente diferentes estimadores pueden recomendar diferentes modelos. Sin embargo, tomados en conjunto estos criterios permiten identificar un conjunto pequeño de modelos de regresión que pueden ser construidos a partir de las variables independientes relevadas. (Szretter, 2017)

AIC y BIC

Cuando se usa un modelo para representar el proceso que generó los datos, la representación casi nunca será exacta, por lo que se perderá cierta cantidad de información al usar el modelo para representar el proceso.

De acuerdo a Faraway (2020) , AIC y BIC estiman la cantidad relativa de información perdida por un modelo dado, siendo el mejor aquel cuya pérdida de información sea la menor.

Al ajustar modelos, es posible aumentar la probabilidad agregando variables, pero hacerlo puede provocar un sobre ajuste. Los estimadores intentan resolver este problema introduciendo un término de penalización proporcional al número de variables en el modelo.

Entonces dado una familia de modelos M_α y una cantidad de observaciones, queremos saber cuál es el mejor modelo, donde α representa el número de predictor(es), ejemplo modelo 1 usa el primer predictor, modelo 2 usa los dos primeros predictores, etc. y donde los posibles predictores se ordenan por correlación con la variable de respuesta.

AIC y BIC parten del (L(θ)), pero como vemos en la siguiente tabla sus fórmulas son diferentes.

Donde:

L=likelihood p=# variables n=# muestras

K= la penalización por parámetro a utilizar; el valor predeterminado k = 2

Aprende más

Para conocer más sobre Estimadores, explica el uso de AIC y BIC ¡Accede aquí!

Dado una cantidad de modelos con distinta cantidad predictores podemos obtener la siguiente gráfica.

Continuando con nuestro ejemplo de predicción de precios de vivienda

#Creamos 5 modelos basado en distintas variables

housingmod1 <- lm(ValuePerSqFt ~ Units +SqFt +Boro , data=housing )

housingmod2 <- lm(ValuePerSqFt ~ Units * SqFt +Boro , data=housing )

housingmod3 <- lm(ValuePerSqFt ~ Units +SqFt *Boro + Class, data=housing )

housingmod4 <- lm(ValuePerSqFt ~ Units +SqFt +Boro + SqFt*Class , data=housing )

housingmod5 <- lm(ValuePerSqFt ~ Boro + Class , data=housing )

#Comparamos los modelos con los estimadores

AIC(housingmod1, housingmod2,housingmod3,housingmod4,housingmod5)

BIC (housingmod1, housingmod2,housingmod3,housingmod4,housingmod5)

#Obtenemos los siguientes resultados

#Que lo podemos graficar

Note que en este caso los 2 estimadores recomiendan el mismo modelo, aunque sus valores son distintos.

De la tabla de los estimadores vale la pena aclarar el termino df. En primer lugar, df significa , que en este caso se traduce a la cantidad de variables predictoras. Si se fija en la creación del modelo 1, este toma 3 variables Units +SqFt +Boro, las 2 primeras son variables continuas y la tercera es una variable categórica que tiene 5 niveles, los cuales han sido automáticamente codificados mediante one-hot, por lo tanto, glm ha creado 5 variables codificadas para la variable Boro. Además, tenemos el intercept del modelo con el cual suma o considera que el modelo tiene 8 variables.

En el modelo 2 tenemos, además de las anteriores, una variable que incluye el efecto combinado de Units:SqFt. Y así sucesivamente con el resto de modelos. Estos vienen a ser la cantidad de variables sobre las cuales se hará la penalización en ambos estimadores.

Selección automática

De los ejercicios presentados anteriormente entendemos que existen diferentes formas de evaluar la bondad de un modelo, sin embargo, es interesante notar que esto ha requerido una gran cantidad de tiempo de parte del analista, por lo que es importante conocer de mecanismos automáticos que nos permitan ubicar los mejores modelos en una forma oportuna.

Para esto existen 4 enfoques:

Todos los subconjuntos posibles
Eliminación hacia atrás
Selección hacia adelante incorporando variables
Regresión de a pasos

Todos los conjuntos posibles

Si el dataset tiene p predictores teóricamente se podría crean 2^p modelos. Mediante este algoritmo crearemos efectivamente esta cantidad de modelos y evaluará mediante cualquier métrica descrita anteriormente cual es el subconjunto óptimo. Por supuesto, esto significa que se realizarán 2^p regresiones, lo cual podría ser problemático para valores de p > 10.

Eliminación hacia atrás

En este algoritmo, iniciamos con un modelo que contiene todas las covariables, y analizamos los valores t y pvalue para cada coeficiente, si todos los pvalues < α, entonces el modelo completo es el mejor, caso contrario elimina la variable que tenga el mayor pvalue, manteniendo las restantes en el modelo. Se evalúa las métricas del modelo. Si el retiro de dicha variable ha provocado un descenso considerable de la métrica entonces el último modelo sería el mejor.

Selección hacia adelante

Es el inverso del anterior, iniciamos con un modelo con una variable y vamos incorporando variables adicionales hasta el punto en el cual las ganancias en el valor de la métrica ya no son significativas. En este caso la métrica que se utiliza es el estadístico F que nos muestra la relación del modelo con respecto a otro que solo tiene el intercept. Recuerde que este estadístico debe compararse con un Fcritico y cuando esta relación supera el valor α el proceso se detiene

Paso a paso

Es una modificación del procedimiento hacia adelante, que elimina una variable en el modelo si ésta pierde significancia cuando se agregan otras variables. El algoritmo es similar al de selección hacia adelante excepto que, a cada paso, después de incorporar una variable, el procedimiento elimina del modelo las variables que ya no tienen significancia.

Es importante mencionar que no siempre el algoritmo hacia adelante y el algoritmo hacia atrás terminarán seleccionando el mismo modelo. Note que la selección se hace en base a AIC.

Veamos un ejemplo de movilidad con mtcars

# Algoritmo hacia adelante

data(mtcars)

minimo<- lm(mpg ~1 , data=mtcars) #solo el intercept

summary(minimo)

completo <- c(“wt”, “cyl”, “hp”)

step(minimo, direction="forward", scope=formula(completo))

Start: AIC=115.94

mpg ~ 1

Step: AIC=73.22

mpg ~ wt

Step: AIC=63.2

mpg ~ wt + cyl

Step: AIC=62.66

mpg ~ wt + cyl + hp

#Veamos algoritmo hacia atrás

completo <- lm(mpg ~. , data=mtcars)

summary(completo)

step (completo, direction="backward")

Start: AIC=70.9

mpg ~ cyl + disp + hp + drat + wt + qsec + vs + am + gear + carb

Step: AIC=68.92

mpg ~ disp + hp + drat + wt + qsec + vs + am + gear + carb

Step: AIC=66.97

mpg ~ disp + hp + drat + wt + qsec + am + gear + carb

Step: AIC=65.12

mpg ~ disp + hp + drat + wt + qsec + am + gear

Step: AIC=62.16

mpg ~ disp + hp + wt + qsec + am

Aprende más

Para conocer más sobre Métodos paso a paso, presenta casos de uso ¡Accede aquí!

Profundiza más

Este recurso te ayudará a enfatizar sobre Modelos de regresión logística ¡Accede aquí!

Actividades
C15C1 - Cuestionario

Hacer intentos: 1

ESTADÍSTICA I V - P11293-TEÓRICO-N0280-05-N01

Diagrama de temas

Métricas para medir la bondad de modelos lineales

Introducción

Fórmula

Fórmula

Aprende más

Aprende más

Profundiza más

Mira el Video de la Clase 15

Escucha el Podcast de la Clase 15

Actividades