Requisitos de finalización
Hacer un envío
Apertura: lunes, 7 de julio de 2025, 07:00
Cierre: domingo, 13 de julio de 2025, 23:59
Tema
MODELOS DE REGRESIÓN
Instrucciones
En este semana vamos a iniciar con el análisis de los dataset del paquete nycflights13. El propósito al final del curso será establecer el mejor modelo para la predicción de la demora en la salida del vuelos. En la presente clase iniciaremos solo con la preparación del dataset.
El grupo de realizar las siguientes actividades:
- 1.- Relacionamiento (“join”) de los datasets. El paquete incluye los datasets de Airlines, airports, flights, y weather. El dataset básico es flights. Los otros datasets permiten incrementar la información pero para esto debemos unir los datasets mediante campos clave. Analice la información contenida en los otros dataset para ver si sería pertinente su inclusión en un posible modelo. Si es pertinente entonces proceda con el join. Note que el el caso del dataset weather las horas no necesariamente coinciden con las de flights por lo que el join debe ser aproximado.
El siguiente enlace es una buena ayuda enlace: https://r4ds.hadley.nz/joins.html
- 2.- Proceda con la limpieza de datos , más específicamente deben eliminarse aquellas observaciones que contengan NAs. Además la variable dep_delay contiene tanto valores positivos (demoras) como negativo (adelanto) . Filtre la data para que solo se presenten vuelos con demoras.
- 3.- El grupo debe realizar una reunión para determinar cuál(es) serían las variables de interés. Por ejemplo, será que el aeropuerto tiene alguna influencia sobre las demoras? , Será que hay más demoras en determinados meses del año? Como resultado de esta actividad debe salir un subset de variables.
- 4.- De este subset de variables demuestre que existe una relación con la variable de respuesta (dep_delay). La demostración podría incluir: diagramas y coeficientes de correlación, agregaciones , determinación de medias , medias ponderadas etc.
- 5. Presente diagramas de dispersión que permitan visualizar la linealidad de la relación.
- 6. Si las pruebas anteriores no mostraran relación, la variable en cuestión deberá ser descartada.
- 7.- Para la variable de respuesta demuestre valide si la misma tiene una distribución normal y/o si tiene alguna deformación como kurtosis, skewness.