Tamaño de fuente
  • A-
  • A
  • A+
Color del sitio
  • R
  • A
  • A
  • A
Salta al contenido principal
EVA PUCE EV 2025-2025 EVA PUCE EV 2025-2025
  • Página Principal
  • Más
Español - Internacional ‎(es)‎
English ‎(en)‎ Español - Internacional ‎(es)‎
En este momento está usando el acceso para invitados
Acceder
Página Principal

C12T1 - Tarea 12

  1. QUI/65/202501/V/EV/NV01/NV01-01-10/N0173-05/5027/TPR
  2. C12T1 - Tarea 12
Requisitos de finalización
Hacer un envío
Apertura: lunes, 7 de julio de 2025, 07:00
Cierre: domingo, 13 de julio de 2025, 23:59

Tema

MODELOS DE REGRESIÓN

Instrucciones

En este semana vamos a iniciar con el análisis de los dataset del paquete nycflights13. El propósito al final del curso será establecer el mejor modelo para la predicción de la demora en la salida del vuelos. En la presente clase iniciaremos solo con la preparación del dataset.


El grupo de realizar las siguientes actividades:

    1.- Relacionamiento (“join”) de los datasets. El paquete incluye los datasets de Airlines, airports, flights, y weather. El dataset básico es flights. Los otros datasets permiten incrementar la información pero para esto debemos unir los datasets mediante campos clave. Analice la información contenida en los otros dataset para ver si sería pertinente su inclusión en un posible modelo. Si es pertinente entonces proceda con el join. Note que el el caso del dataset weather las horas no necesariamente coinciden con las de flights por lo que el join debe ser aproximado.
    El siguiente enlace es una buena ayuda enlace: https://r4ds.hadley.nz/joins.html

    2.- Proceda con la limpieza de datos , más específicamente deben eliminarse aquellas observaciones que contengan NAs. Además la variable dep_delay contiene tanto valores positivos (demoras) como negativo (adelanto) . Filtre la data para que solo se presenten vuelos con demoras.

    3.- El grupo debe realizar una reunión para determinar cuál(es) serían las variables de interés. Por ejemplo, será que el aeropuerto tiene alguna influencia sobre las demoras? , Será que hay más demoras en determinados meses del año? Como resultado de esta actividad debe salir un subset de variables.

    4.- De este subset de variables demuestre que existe una relación con la variable de respuesta (dep_delay). La demostración podría incluir: diagramas y coeficientes de correlación, agregaciones , determinación de medias , medias ponderadas etc.

    5. Presente diagramas de dispersión que permitan visualizar la linealidad de la relación.

    6. Si las pruebas anteriores no mostraran relación, la variable en cuestión deberá ser descartada.

    7.- Para la variable de respuesta demuestre valide si la misma tiene una distribución normal y/o si tiene alguna deformación como kurtosis, skewness.

Actividad previa C11C1 - Cuestionario
Siguiente actividad C12C1 - Cuestionario
PUCE Virtual Logo

CAMPUS VIRTUAL

  • → SOPORTE VIRTUAL

CONTACTOS

  • soportevirtual@puce.edu.ec
  • Tel: +593 99 715 1230
  • Sede Quito
    Avenida 12 de Octubre 1076 y
    Vicente Ramón Roca