-
Introducción
Mostrar más Mostrar menosIntroducción
Queridos participantes,
¡Bienvenidos a esta emocionante aventura digital! Nos entusiasma ser parte de este viaje de aprendizaje, en el que descubrirán nuevas herramientas, adquirirán valiosos conocimientos y desarrollarán habilidades que les acompañarán a lo largo de su trayectoria.
Les invitamos a familiarizarse con la plataforma, conocer el curso y participar activamente.
¡Estamos aquí para apoyarlos en cada paso de este proceso!
¡Mucho éxito en este inicio!
El equipo de PUCE Virtual
-
Tutoriales
Sílabo
Manual del estudiante
-
Resultados de Aprendizaje y Criterios de Evaluación
Este curso trata de los fundamentos de la estadística e introduce al estudiante en el uso de herramientas tecnológicas apropiadas para su implementación. Este curso parte de conceptos básicos como poblaciones y muestra, la teoría del muestreo , tipos de variables, correlación y pruebas de hipótesis , diseño de experimentos y de distribuciones de tipo continuas y discretas.
En la segunda parte cubre la creación de modelos de predicción lineal simple, múltiple y logística. Los modelos son analizados usando múltiples métricas que permitan al analista perfeccionar el modelo ya sea ajustando las variables o mediante métodos de regularización.
RESULTADOS DE APRENDIZAJE
RDA 1: Identificar los conceptos de la Estadística Descriptiva e Inferencial que sustentan el desarrollo de procesos estadísticos.
- Criterio de evaluación 1: Realizar un análisis descriptivo del dataset mediante estadísticos y agregaciones que conduzcan a identificar y justificar variables pertinentes causantes de las demoras.
RDA 2: Calcular e interpretar estadísticos y parámetros para describir muestras y poblaciones.
- Criterio de evaluación 1: Identificar la distribución que siguen las variables estudiadas realizando diversas pruebas de hipótesis.
RDA 3: Analizar información contextual sobre hábitat, infraestructura y movilidad, mediante técnicas estadísticas descriptivas e inferenciales, para la adecuada toma de decisiones.
- Criterio de evaluación 1: Aplicar técnicas de regresión lineal y múltiple para crear modelos candidatos que consideren un subset de las variables identificadas anteriormente como pertinentes.
- Criterio de evaluación 2: Aplicar diversas técnicas para estimar la bondad de los modelos a fin de comparar ventajas y desventajas de cada uno de ellos.
PROYECTO FINAL
El proyecto final es la evaluación sumativa de los 3 retos, se considera como el entregable final de la asignatura.
Objetivo General
Desarrollar un modelo estadístico que permita predecir la probabilidad de demora en salida de vuelos de aeropuertos de NY, basado en condiciones ambientales y otros parámetros contenidos en el dataset.
Objetivos Específicos
- Realizar análisis exploratorio de los datos (EDA) tendientes a determinar la necesidad de implementar limpieza de datos, normalizaciones, imputaciones, o simplemente comprender su comportamiento por grupos o subgrupos mediante visualizaciones simples.
- Creación de pruebas de hipótesis y otras pruebas de contraste que permitan inferir el comportamiento de la población.
- Creación de modelos lineales o logísticos mediante el análisis de las variables que demuestren correlación y causación utilizando pruebas y visualizaciones adecuadas.
Descripción del Proyecto
El proyecto consiste en desarrollar un modelo de predicción que permita predecir la probabilidad de que un vuelo presente demoras en la salida del mismo, basado en información histórica y otras variables ambientales que pudieran tener un impacto.
Actividades
Reto Actividades Reto 1 - Realizar un análisis descriptivo del dataset
- Realizar agregaciones que conduzcan a identificar y justificar variables pertinentes causantes de las demoras
- Identificar actividades de preprocesamiento que deban implementarse sobre la data
Reto 2 - Realizar pruebas linealidad y normalidad para variables continuas
- Realizar pruebas pertinencia para variable nominales para variables nominales
- Realizar pruebas de hipótesis
Reto 3 - Aplicar técnicas de regresión lineal
- Aplicar técnicas de regresión logística
- Analizar el comportamiento de los modelos en base a predicción
Reto 4 - Obtener múltiples métricas como indicadores de la bondad los distintos modelos
- Aplicar técnicas de regresión logística
- Aplicar técnicas de comparación de modelos
Metodología (CRISP-DM)
- Entendimiento de la data: Incluye recolección de la data, análisis descriptivo de la data , EDA y verificación de la calidad de la misma
- Preparación de la data: determinar qué conjuntos de datos se utilizarán y documentar los motivos de inclusión o exclusión, limpieza de datos, transformaciones que deben hacerse sobre los datos
- Modelado: Revisar las técnicas de modelado y seleccionar la más apropiada, diseño de subsets de prueba y validación, construcción de modelos y validación
- Cada reto corresponde a una entrega parcial del proyecto.
Criterios de Evaluación del proyecto
Criterio Ponderación Detalle Funcionalidad completa 40% Cumplimiento de los 4 retos Documentación del código mediante archivos RMD o Jupyter 35% Uso de funciones, bucles y condicionales de manera eficiente. Manejo de archivos 25% Eficiencia del modelo en la predicción Cronograma de entregables del Proyecto
Semana Reto Entregable Contenido 4 Reto 1 Análisis exploratorio completo Estadística descriptiva de los datos y visualización de los mismos 8 Reto 2 Pruebas de hipótesis y pruebas de contraste Desarrollo de la pruebas y entendimiento de los resultados 12 Reto 3 Modelos Desarrollo de modelos y análisis inicial de la calidad de este 16 Reto 4 Comparación de modelos Técnicas aplicadas para comparar los distintos modelos candidatos Retos de aprendizaje de la asignatura
RETO 1: Análisis descriptivo del dataset mediante estadísticos y agregaciones que conduzcan a identificar y justificar variables pertinentes causantes de las demorasObjetivo: Analizar todas las variables del dataset, establecer sus principales estadísticos, visualizar la data.
Indicaciones:
- Entender los distintos tipos de datos:
- Variables cuantitativas: discretas y continuas
- Variables cualitativas: nominales y ordinales
- Medidas de tendencia central:
- Distintos tipos de medias
- Máximos, mínimos y rangos
- Medidas de dispersión:
- Cuantiles
- Varianzas y distribución
RETO 2: Identificar la distribución que siguen las variables estudiadas realizando diversas pruebas de hipótesisObjetivo: Entender las variables en términos de distribuciones de distinto tipo.
Indicaciones:
- Identificación del tipo de variables:
- Cualitativas y cuantitativas
- Establecer relaciones entre variables:
- Aplicar medidas de correlación y covarianza
- Visualizar las relaciones
- Aplicación de pruebas de contraste:
- Establecer hipótesis sobre la población
- Hipótesis de un lado y de dos lados
RETO 3: Aplicar técnicas de regresión lineal y múltiple para crear modelos candidatos que consideren un subset de las variables identificadas anteriormente como pertinentesObjetivo: Crear modelos basados en distintos subsets de variables.
Indicaciones:
- Aplicar regresiones lineales múltiples o regresiones logísticas
- Analizar resultados iniciales de residuos
- Analizar incertidumbre de coeficientes
- Validación de los modelos mediante técnicas de validación cruzada:
- Uso de particiones nfold
- Obtener métricas de rendimiento:
- R², R² ajustado
- Error estándar residual
RETO 4: Aplicar diversas técnicas para estimar la bondad de los modelos a fin de comparar ventajas y desventajas de cada uno de ellosObjetivo: Comparar diversos modelos.
Indicaciones:
- Aplicar métricas derivadas del likelihood:
- Estimadores y deviances
- Aplicar métricas derivadas de cross-validación:
- Delta
- Aplicar ANOVA:
- Análisis del estadístico F
-
Índice
Resultados de aprendizajeClasesResultado de aprendizaje 1
Identificar los conceptos de la Estadística Descriptiva e Inferencial que sustentan el desarrollo de procesos estadísticos
Resultado de aprendizaje 2
Calcular e interpretar estadísticos y parámetros para describir muestras y poblaciones
Resultado de aprendizaje 3
Analizar información contextual sobre hábitat, infraestructura y movilidad, mediante técnicas estadísticas descriptivas e inferenciales, para la adecuada toma de decisiones
-
Vencimiento: domingo, 29 de junio de 2025, 23:00
-
Vencimiento: lunes, 30 de junio de 2025, 20:00
Mostrar más-
-
RETO 1: Análisis descriptivo del dataset mediante estadísticos y agregaciones que conduzcan a identificar y justificar variables pertinentes causantes de las demoras
Objetivo: Analizar todas las variables del dataset, establecer sus principales estadísticos, visualizar la data.
Indicaciones:
- Entender los distintos tipos de datos:
- Variables cuantitativas: discretas y continuas
- Variables cualitativas: nominales y ordinales
- Medidas de tendencia central:
- Distintos tipos de medias
- Máximos, mínimos y rangos
- Medidas de dispersión:
- Cuantiles
- Varianzas y distribución
Actividades
- Realizar un análisis descriptivo del dataset
- Realizar agregaciones que conduzcan a identificar y justificar variables pertinentes causantes de las demoras
- Identificar actividades de preprocesamiento que deban implementarse sobre la data
-
Introducción
En esta clase, iniciaremos con los fundamentos de la estadística y su propósito en la Ciencia de Datos, así como con la introducción del estudiante a las herramientas tecnológicas que se utilizarán para su implementación. Específicamente, en la primera parte, revisaremos el uso de R y RStudio, y su aplicación en distintas fases de la estadística.
En la segunda parte, abordaremos la terminología básica, los tipos de variables utilizados en el análisis de las medidas de tendencia central y las medidas de dispersión. También introduciremos gráficos que permitan entender de mejor manera los diversos estadísticos.
SERIES TEMPORALES
Conocida también como serie cronológica. Es la sucesión de observaciones cuantitativas ordenadas en el tiempo de un fenómeno. Los datos tienen un orden que no es posible variar. La información puede ser mensual, trimestral, anual o de cualquier otro intervalo temporal.
VARIABLE ALEATORIA
Conocida también como variable estocástica o probabilística. Es la característica considerada en un experimento aleatorio cuyo valor de ocurrencia solo puede saberse con exactitud una vez observado.
-
1.0. Terminología Básica
En primer lugar, empecemos indicando que es estadística: Existen múltiples definiciones de la estadística, posiblemente una por cada autor, a continuación, veremos algunas de las mejores definiciones:
- La estadística es la ciencia que estudia cómo debe emplearse la información y cómo dar una guía de acción en situaciones prácticas que entrañan incertidumbre., la cual implica su recolección, clasificación, síntesis, organización, análisis e interpretación, para la toma de decisiones frente a la incertidumbre. Gutiérrez 1998
- La estadística es la rama del conocimiento humano que tiene como objeto el estudio de ciertos métodos inductivos aplicables a fenómenos susceptibles de expresión cuantitativa. (López, 2020)
De estas definiciones podemos extraer los siguientes detalles:
De acuerdo con Gutierrez, (2007), debemos notar que hace referencia a la “incertidumbre”. Esto es correcto, aunque, contrario a lo que se piensa, la estadística no es una ciencia matemática cuyos resultados sean siempre exactos. En realidad, las operaciones estadísticas nos muestran valores dentro de un rango. No podemos asegurar cuál es el valor real, pero sabemos que estará dentro de un intervalo determinado.
Notaremos que la estadística abarca desde funciones que tiene que ver con la recolección de la información, su tratamiento y análisis de lo que nos está mostrando.
Por último, de acuerdo con López (2020), la estadística es una ciencia de carácter inductivo, lo que significa que se basa en los datos para tomar decisiones, a diferencia de los estudios deductivos, en los cuales se conoce de antemano lo que se intenta demostrar.
Existen tres ramas (o si se quiere tres etapas) de la estadística, cada una comprende una serie de técnicas y funciones que permiten contestar las siguientes preguntas:
¿Qué pasó? ¿Qué está pasando?
¿Qué pasará si seguimos de la misma manera en el futuro?
¿Qué podría pasar si se alteran las condiciones del negocio?
En esta clase, trataremos de responder la primera pregunta. El conjunto de métodos y procedimientos que nos ayudan a contestarla se denomina estadística descriptiva.
Estadística Descriptiva: Es la rama de las matemáticas que recolecta, presenta y caracteriza un conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las diversas características de ese conjunto. Por lo tanto, la estadística descriptiva se apoya o trabaja en base a variables que describen un proceso, evento, negocio, una enfermedad, etc.
Puede haber múltiples variables en un caso de estudio y estas variables pueden ser de distinta naturaleza. De la misma manera que el éxito de una aplicación es haber realizado un correcto análisis de las propiedades de los objetos y clases, el éxito de la estadística es haber recolectado todos los factores que afectan al proceso, evento, negocio, etc.
Tipos de Datos
Para iniciar con la estadística descriptiva, es importante mencionar que existen varios tipos de datos. Comúnmente, asociamos la palabra "dato" con una variable numérica, pero esto no siempre es el caso. Existen diversos tipos de datos dentro del análisis estadístico.
Empezaremos por catalogar dos grandes grupos de tipos de datos:
- Variables cuantitativas: Las observaciones se expresan numéricamente. Dentro de esta categoría podemos ubicar algunas variantes:
- Variables continuas: Son aquellas que pueden tomar cualquier valor, con cualquier cantidad de decimales, en algunos casos podrían estar acotadas o dentro de un rango. Ejemplo: π = 3.14159.
- Variables discretas: Pueden tomar determinados valores numéricos únicamente, por ejemplo, la edad de una persona. Un caso particular de esta es la data binaria que solo puede tomar dos valores: Verdadero/Falso.
- Series de Tiempo: Es una subclase de cuantitativa representada por listas o vectores que representan el valor de la variable a través del tiempo, por ejemplo, temperatura de la ciudad durante el año.
- Ratio o Razón: Relación entre dos variables numéricas y generalmente se expresa en términos de porcentajes, por ejemplo, tasa de cambio de una moneda.
- Intervalo: Variables que se hallan dentro de un rango. Esto es muy utilizado por ejemplo en secuencias en R o rangos en Python, ejemplo: secuencia de conteo del 1 al 10, en R representado por la función seq (1::10).
- Variables cualitativas: A este grupo pertenecen las variables que describen características que pueden presentarse en los elementos que conforman el conjunto de datos. En R también se les conoce como variables tipo factor. En esta categoría podemos ubicar los siguientes casos:
- Variables categóricas: Son variables que se consideran clasificadoras o calificadoras, ya que catalogan los elementos en grupos, conjuntos o categorías. Se conocen como dicotómicas aquellas que solo pueden adoptar dos valores diferentes, y como politómicas las que poseen un número de valores mayor a dos.
- Variables nominales: Nombres o clasificaciones que se utilizan para datos en categorías, por ejemplo, país, género, color, que por su naturaleza no pueden ser ordenadas.
- Variables ordinales: Datos que si bien no son numéricos, sí nos dan un sentido de prioridad. Por ejemplo: pequeño, mediano, grande; variables que pueden ser ordenadas.
La siguiente figura explica la clasificación:
Figura 1: Taxonomía de las variables.
Creación autor: Alfonso Prado.estadistica
-
1.1 Medidas de tendencia central
Como mencionamos anteriormente, el propósito de la estadística descriptiva es describir los datos. Existen múltiples herramientas para ello. A continuación, exploraremos algunas de las más comunes.
1.1.1 Promedio
Promedio: Es el valor central de un conjunto de datos y nos indica cuál es el valor esperado para una , considerando todas las posibilidades. En R, la función utilizada para calcularlo es mean(), cuya sintaxis y fórmula se describen en la siguiente figura.
Figura 2
Referencia: Función mean sintaxis y fórmula . www.rdocumentation.orgFigura 2: Función mean sintaxis y fórmula . www.rdocumentation.org
La función acepta los siguientes argumentos:
- x: representa el vector que contiene los datos.
- trim: Es la fracción (0 a 0.5) de observaciones que se deben recortar de cada extremo de
x
antes de calcular la media. . Los valores de recorte que se encuentren fuera de ese rango se toman como el punto final más cercano y es útil en caso de que el dataset tenga valores atípicos. - na.rm: Un valor lógico que indica si los valores NA deben eliminarse antes del cálculo. En R cuando un valor de una variable figura como NA indica que no se ha ingresado dicho valor y es diferente al caso de asumir que su valor es cero o nulo. La importancia de este argumento radica en que cualquier operación que se realiza sobre un vector que contiene al menos un valor NA dará como resultado NA.
Si analizamos la fórmula de la función mean(), veremos que todos los valores tienen un peso igual. Esto podría no ser apropiado en algunos casos. Para esto utilizamos la media ponderada:
Media ponderada:
La media aritmética ponderada es similar a una media aritmética, excepto que en lugar de que cada una de las observaciones contribuyan igualmente al promedio final, algunas contribuyen más que otras. Podemos obtener la media ponderada usando el paquete DescTools. La función y formula se muestran en la figura 3..
Figura 3: Media Ponderada sintaxis y fórmula
Referencia: Media Ponderada sintaxis y fórmula. www.rdocumentation.orgFigura 3: Media Ponderada sintaxis y fórmula
Referencia: Media Ponderada sintaxis y fórmula. www.rdocumentation.orgNote que la función es Mean con mayúscula, en R mayúsculas no son igual que minúsculas. Los argumentos son similares a la función mean, excepto que se introduce el argumento weights, que representa los pesos de cada una de la observaciones
- weights: representa los pesos de cada una de las observaciones.
Media geométrica
Esta es un tipo de media que se usa generalmente en ambientes financieros debido a que su resultado es un poco más conservador. Su valor se obtiene mediante la raíz n de la multiplicación de los valores de las observaciones. Existen muchos paquetes que proveen esta funcionalidad, en nuestra clase utilizaremos la función gm() del paquete rob.compositions . Debido a que la multiplicación de los valores de las observaciones puede arrojar valores muy grandes alternativamente se puede calcular como la constante de Euler (e=2.7182) elevado a la potencia de la media de los logaritmos neperianos de la data, de esta forma garantizamos que no se producirá un “overflow” en su cálculo. Su función y fórmula se muestran en la figura 4..
Figura 4: Media geométrica, sintaxis y fórmula
Figura 4: Media geométrica, sintaxis y fórmula
1.1.2 Moda
Moda: Esta función permite calcular el o los valores más repetidos dentro de un conjunto de datos. En lenguaje R, el paquete modeest ofrece diversas funciones para estimar la moda, destacándose entre ellas la función mlv(), la cual retorna un vector numérico con el valor o los valores más frecuentes. Esta función admite varios métodos de estimación, lo que proporciona flexibilidad según las características de los datos analizados. La sintaxis correspondiente se muestra en la Figura 5.
Figura 5: Sintaxis de la función mlv
Referencia: Moda sintaxis y fórmula . www.rdocumentation.org .Figura 5: Sintaxis de la función mlv
Referencia: Moda sintaxis y fórmula . www.rdocumentation.org .mlv es una función genérica para estimar la moda de una distribución univariante. Se proporcionan diferentes métodos, el más común es “mfv” que significa el valor más frecuente.
-
1.2 Medidas de dispersión
Se llama dispersión de los datos a la variabilidad que existe entre ellos. Cuando tenemos un set de datos de una variable aleatoria, se podría pensar que estos podrían asumir cualquier valor. Sin embargo, en la realidad, cuando se analiza un fenómeno, los datos tienden a estar más o menos agrupados alrededor de la media. Existen varias funciones que nos permiten cuantificar esta dispersión.
1.2.1 Percentiles
Cuantiles: Los cuantiles nos dan una primera idea de la distribución de los valores. Un cuantil o percentil indica qué porcentaje de los datos se encuentra por debajo de un cierto valor de la variable bajo análisis. Por ejemplo, el cuantil del 50 por ciento es lo mismo que la mediana. R tiene algunas funciones convenientes para ayudar a observar los cuantiles.
La función quantile() puede proporcionarle cualquier cuantil que desee. Para ello, se utiliza el argumento
probs
como un número fraccionario. Por ejemplo, para obtener el cuantil del 20%, se utilizará 0.20 como valor de este argumento. Este argumento también puede recibir un vector como valor, por lo que es posible obtener los cuantiles de 5% y 95% simultáneamente.Es importante mencionar que existen distintos algoritmos para el caso de variables discretas y continuas, y que no todas las herramientas informáticas utilizan el mismo algoritmo. Esto puede ser relevante e incluso desconcertante si se está trabajando con diferentes herramientas a la vez, ya que podrían proporcionar resultados distintos.
Los algoritmos se numeran del 1 al 3 para variables discretas, como fechas o factores ordenados, y del 4 al 9 para variables continuas. El algoritmo se define mediante el argumento type, siendo 7 el valor por defecto.
La figura 6 muestra la sintaxis de la función quantile(), así como las fórmulas aplicables a los distintos métodos.
Aprende más
Para conocer más sobre el tema, puedes leer el siguiente artículo ¡Accede aquí!
Figura 6: Sintaxis función quantile
Referencia: Quantile sintaxis. www.rdocumentation.orgFigura 6: Sintaxis función quantile
Referencia: Quantile sintaxis. www.rdocumentation.org1.2.2 Varianza
Varianza: Es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Una serie de datos podría tomar un número infinito de valores, pero en la práctica, cuando se analiza un parámetro de interés, los datos tienden a estar dentro de un rango más o menos disperso. La varianza indica la medida de esta dispersión.
Figura 7: Función y fórmula de la varianza
Referencia: Varianza sintaxis y fórmula. www.rdocumentation.orgFigura 7: Función y fórmula de la varianza
Referencia: Varianza sintaxis y fórmula. www.rdocumentation.org1.2.3 Desviación
Desviación estándar: Representa la raíz cuadrada de la varianza. El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra.
Figura 8: Desviación estándar función y fórmula
Referencia: Desviación estándar función y fórmula. www.rdocumentation.orgFigura 8: Desviación estándar función y fórmula
Referencia: Desviación estándar función y fórmula. www.rdocumentation.org1.2.4 Cómo visualizar la dispersión de los datos
ggplot2 es un paquete de visualización de datos para el lenguaje R. Es un esquema general para la visualización de datos que divide los gráficos en componentes semánticos en una modalidad de capas. ggplot2 es un paquete mejorado de los gráficos base en R (plot).
Forma parte del paquete Tidyverse, un sistema para la manipulación, exploración y visualización de datos que comparten una filosofía de diseño común. Los paquetes del Tidyverse están destinados a ser usados por estadísticos y científicos de datos. Básicamente, tidyverse trata sobre las conexiones entre las herramientas que hacen posible el flujo de trabajo.
ggplot2 permite generar una gran cantidad de tipos de gráficos. Las gráficas de dispersión son más útiles para mostrar la relación entre dos variables continuas, o cuando una entidad está compuesta por dos valores. Para visualizar la dispersión utilizaremos la función geom_point, cuya sintaxis se muestra en la figura 9.
Información adicional sobre ggplot2, el siguiente enlace describe la operación básica del paquete (enlace).
Aprende más
Para conocer más sobre ggplot2, puedes leer el siguiente artículo ¡Accede aquí!
Figura 9
Referencia: Sintaxis de la función geom_point, www.rdocumentation.orgFigura 9
Referencia: Sintaxis de la función geom_point, www.rdocumentation.orgDonde el argumento mapping permite indicar qué variables del dataset son asignadas a cada eje. El argumento data, por supuesto, corresponde al dataframe que contiene los datos. El argumento position permite alterar la posición de las observaciones en situaciones de sobre-trazado, con el fin de mejorar la visualización.
Figura 10: Código y visualización de la dispersión del dataset mtcars
Creación autor: Alfonso PradoFigura 10: Código y visualización de la dispersión del dataset mtcars
Creación autor: Alfonso PradoProfundiza más
Este recurso te ayudará a enfatizar sobre Diagramas de dispersión ¡Accede aquí!
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
En esta clase, iniciaremos con el estudio de las relaciones entre variables; específicamente, trataremos sobre distintas funciones y algoritmos para medir la correlación y covarianza entre dos o más variables, así como técnicas para visualizar la correlación.
Un tema importante en la estadística es tratar de entender cómo se relacionan las variables entre sí. Para ello, introduciremos los temas de correlaciones, covarianza y causación. Lo anterior estará apoyado por el conocimiento del marco general del lenguaje R y la interfase RStudio, los mismos que se usarán en los laboratorios propuestos y que reforzarán el aprendizaje incorporando algunos enlaces externos. Un tema particular en este caso es la determinación de la existencia de relaciones espurias.
CORRELOGRAMA
Es un gráfico que permite apreciar las autocorrelaciones r₁, r₂, ..., rₖ mediante el cual se identifican si los datos de una serie de tiempo tienen las siguientes características: estacionalidad, aleatoriedad, tendencia y estacionariedad.
PRUEBA CHI CUADRADO
De acuerdo con Ramírez-Alan (2016), “El test Χ² considera la hipótesis nula (H₀) de que las variables son independientes. Si esto es verdad, la frecuencia de ocurrencia debería estar dada por la cantidad de casos totales multiplicada por la probabilidad esperada”. En el ejemplo anterior, si la probabilidad de compra es igual para los 3 niveles socioeconómicos (πᵢⱼ = 33%), entonces si se han vendido 1000 ítems, estos deberían estar distribuidos en las 3 categorías (n*πᵢⱼ = 1000*0.33), valor conocido como μᵢⱼ.
Pero si Hₐ está en lo correcto, va a existir una diferencia entre la frecuencia observada (ηᵢⱼ) y la esperada (μᵢⱼ), indicando que existe algún fenómeno por detrás que influencia la frecuencia observada. La prueba Χ² calcula esta diferencia de la siguiente forma
-
Reto #2
2. Relacionamiento de variables
En la clase anterior, revisamos la clasificación de las variables desde el punto de vista de los tipos de datos; es así que mencionamos la distinción entre variables continuas y discretas, o variables nominales y ordinales.
Ahora presentaremos otra clasificación basada en la relación que se observa entre estas variables, en base al concepto de causa-efecto. La idea es entender si una variable es la causante de que otra variable cambie de valor.
Variables Predictoras y de Respuesta
Predictoras (anteriormente llamadas variables independientes) son variables que representan un argumento para obtener un efecto sobre otra variable.
Variables de Respuesta (anteriormente llamadas dependientes) son variables que obtienen su valor en base a variables predictoras.
Para entender mejor el tema imagine la representación de una función matemática en un plano cartesiano Y = f(x), donde la variable Y tomará un valor derivado de la variable X y no al revés.
Por ejemplo, en R tenemos un dataset llamado
mtcars
, el cual contiene una decena de variables relacionadas con características de vehículos. Dos de estas características son:disp
(que representa el volumen de los cilindros de un vehículo, establecido en centímetros cúbicos) ympg
(el rendimiento o millas por galón), y queremos entender qué tipo de relación tiene este par de variables.
Figura 1: Relación disp vs mpg
Creación de autor: Alfonso PradoFigura 1: Relación disp vs mpg
Creación de autor: Alfonso PradoDe la Figura 1 notamos que a medida que los cc. del motor aumentan, el rendimiento de consumo de gasolina disminuye.
En estadística, una relación monótona entre dos variables se refiere a un escenario en el que un cambio en una variable generalmente se asocia con un cambio en una dirección específica en otra variable.
Hay dos tipos de relaciones monótonas:
- Monotónica positiva: Cuando el valor de una variable aumenta, el valor de la otra variable tiende a aumentar también.
- Monotónica negativa: Cuando el valor de una variable aumenta, el valor de la otra variable tiende a disminuir.
- No monotónica: Si dos variables generalmente no cambian en la misma dirección, entonces se dice que tienen una relación no monótona.
Cuando analizamos la relación entre dos variables, también es importante distinguir entre un comportamiento lineal y no lineal. En algunos casos, podemos observar que dicha relación es monotónica positiva solo en cierto rango y luego pasa a ser monotónica negativa, o simplemente se estabiliza en cierto valor.
En base a estos dos conceptos podemos establecer las siguientes posibilidades:
Figura 2: Distintos tipos de correlaciones
Figura 2: Distintos tipos de correlaciones
-
2.1 Medición de la correlación y covarianza
Una vez que hemos entendido la relación entre dos variables, nos interesa cuantificar qué tan fuerte es dicha relación; para esto, existen distintos métodos para cuantificarla. Estos métodos podemos distinguirlos en dos clases.
PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS
La diferencia principal entre estos dos tipos es su base matemática para el cálculo. Las pruebas paramétricas se basan en el entendimiento de la distribución de las variables. Este concepto lo veremos más adelante en el curso. Por el momento, diremos que las pruebas paramétricas asumen una cierta distribución.
Ventajas de las Pruebas Paramétricas
- Tienen más poder de eficiencia.
- Más sensibles a los rasgos de los datos recolectados.
- Menos posibilidad de errores.
- Dan estimaciones probabilísticas bastante exactas.
2.1.1 Correlación
Para el cálculo de la correlación tenemos las siguientes pruebas:
Correlación de Pearson: mide una dependencia lineal entre dos variables (X, Y). Es una prueba de tipo paramétrica. Se puede usar solo cuando X e Y son de distribución normal (esto lo veremos más adelante).
Figura 3: Fórmula de la Correlación de Pearson
Figura 3: Fórmula de la Correlación de Pearson
Donde:
- ̄X y ̄Y representan la media del vector X y Y respectivamente.
- Sx y Sy representan las desviaciones estándar de X y Y respectivamente.
- n es la cantidad de observaciones.
Correlación de Kendall y Spearman, son coeficientes de correlación basados en rangos (no paramétricos): Las pruebas no paramétricas son aquellas que se encargan de analizar datos que no tienen una distribución particular y se basan en hipótesis, pero los datos no están organizados de forma normal. Aunque tienen algunas limitaciones, cuentan con resultados estadísticos ordenados que facilita su comprensión.
Para el cálculo de la correlación usaremos la función
cor()
cuya sintaxis se muestra en la siguiente figura.
Figura 4: Sintaxis de la función cor
Referencia: Sintaxis de la función, www.rdocumentation.orgFigura 4: Sintaxis de la función cor
Referencia: Sintaxis de la función, www.rdocumentation.orgRetorna el coeficiente de correlación.
Es importante mencionar que
cor()
puede tomar 2 vectores (X y Y) o un dataframe completo que puede tener múltiples columnas, por lo tanto, si la data es muy extensa su resultado será una matriz de correlaciones entre todos los vectores deldata.frame
.Esta matriz tiene las siguientes características:
- La matriz es simétrica, la correlación entre a y b es la misma que entre b y a.
- Los valores de la correlación varían entre -1 y 1; el signo indica si la relación es monotónica negativa o positiva, y el valor absoluto indica qué tan fuerte es la relación.
- La diagonal es siempre 1 (una variable siempre se correlaciona consigo misma).
Es recomendable limitar las columnas que intervienen mediante “subsetting”, es decir, seleccionando un subconjunto de columnas de interés.
Tabla 1: Matriz de correlación en el dataset mtcars
Creación de autor: Alfonso PradoTabla 1: Matriz de correlación en el dataset mtcars
Creación de autor: Alfonso PradoCuando la matriz es pequeña como en la tabla anterior, analizar las relaciones es simple, pero cuando se tiene decenas o centenas de variables se torna difícil. En este caso recurrimos a la visualización.
Por ejemplo, utilizando el dataset
economics
, este contiene las siguientes columnas:- Pce: Gastos de consumo personal
- Pop: Población total, en miles
- Psavert: Tasa de ahorro personal
- Uempmed: Duración media del desempleo, en semanas
- Unemploy: Número de desempleados en miles
Utilizando
ggplot
, podemos crear un mosaico cuyos colores representan la fuerza de la correlación. Colores fuertes representan una correlación alta, y colores neutros como el blanco indican una correlación nula. Estos gráficos son conocidos como .Existen muchas formas de crear estos correlogramas. El siguiente enlace cubre algunas posibilidades.
Figura 5: Diagrama calor de la correlación del dataset economics
Creación de autor: Alfonso PradoFigura 5: Diagrama calor de la correlación del dataset economics
Creación de autor: Alfonso Prado2.1.2 Covarianza
Hemos visto que la correlación indica la relación que existe entre dos variables; es decir, si una de ellas (la variable predictora) cambia, la variable de respuesta también cambiará, ya sea hacia arriba o hacia abajo.
Por otro lado, la covarianza es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre ambas variables y es esencial para estimar otros parámetros fundamentales, como el coeficiente de correlación lineal o la recta de regresión. También ayuda a entender si estas dos variables están relacionadas de alguna forma.
Retorna un valor que puede ser positivo (si se mueven juntas), negativo (si se mueven en direcciones opuestas), o nulo (si no se mueven juntas de manera apreciable). Existen varios métodos (algoritmos) para su cálculo.
En otras palabras, la covarianza trata de encontrar la relación entre dos variables predictoras. Se asume que hay una variable predictora que provoca cambios entre las variables de respuesta. Queremos encontrar la relación entre estas dos variables predictoras.
La función para determinar la covarianza y su fórmula de cálculo se puede ver en la siguiente gráfica:
Figura 6: Sintaxis de la función cov (a) y su fórmula de cálculo (b)
Referencia: Sintaxis de la función, www.rdocumentation.orgFigura 6: Sintaxis de la función cov (a) y su fórmula de cálculo (b)
Referencia: Sintaxis de la función, www.rdocumentation.org2.1.3 Correlación con variables categóricas
Hasta el momento, hemos visto cómo cuantificar la relación entre variables cuantitativas numéricas, pero, como mencionamos antes, estas no son el único tipo de variables que la estadística puede procesar. Otro caso importante es el de las variables nominales. Para este tipo de datos, utilizamos tablas de contingencia.
De acuerdo con Agresti A. (2013), el análisis de datos categóricos se basa típicamente en tablas de contingencia de dos o más dimensiones, tabulando la frecuencia de ocurrencia de niveles de datos nominales y/o ordinales. Una tabla de contingencia es una herramienta que permite organizar datos categóricos en filas y columnas, mostrando la frecuencia de ocurrencia de cada combinación de valores. Esta tabla nos permite medir la interacción entre dos variables y obtener información valiosa para comprender mejor los resultados de una investigación.
Por ejemplo, trabajando con el dataset Oncho, este dataset describe la cantidad de personas encuestadas para saber si padecen de esta enfermedad (onchocercosis). Tenemos una variable que indica si está infectada la persona, pero también contiene otras variables como el área (Savannah o Rainforest), sex (el género masculino o femenino) y grupo de edad (0-20, 20-39, 40+). Todas estas variables son tipo categórico.
En R, estas variables pueden ser convertidas al tipo factor. Un factor no es nada más que una variable categórica que permite agrupación y las distintas opciones de cada variable toman el nombre de niveles del factor. Por ejemplo, para el factor “área” hay 2 niveles: Savannah o Rainforest.
Con estos datos podemos crear una tabla de contingencia que nos permita medir la relación entre estas variables en términos de frecuencia de ocurrencia en el dataset, por ejemplo, no infectados en la Savannah tenemos 267 personas mientras que infectadas en la misma área 281.
Figura 7:Dataset (a) y tabla de contingencia (b)
Figura 7:Dataset (a) y tabla de contingencia (b)
Debemos notar que la cantidad de observaciones de un nivel nominal no va a ser necesariamente la misma de otro nivel. Por ejemplo, la cantidad de encuestados hombres (Male) no es igual a las mujeres (Female).
En algunos campos de investigación como la bioestadística se estila crear la tabla con nombres genéricos como Exposure y Outcome, donde las filas (Exp+ y Exp-) indican haber estado sujeto a un “tratamiento” y las columnas conocidas como Out+ y Out- haber desarrollado un efecto o no. En nuestro dataset Oncho, el área sería el “tratamiento” y
mf
el “efecto”.Los datos de frecuencia de la tabla por sí solos no indican mayor cosa, por lo tanto, la tabla debe ser procesada a fin de obtener algunos estadísticos que nos indiquen si existe una relación entre un par de variables. El proceso de análisis va a ser diferente si la tabla es de 2x2 (dos filas y dos columnas) o de más filas, como por ejemplo si analizamos la variable “agegrp”.
Para el caso de variables dicotómicas (esto es, variables que solo tienen dos posibles niveles) la función
epi.2by2()
nos ayuda a obtener los estadísticos necesarios, pero para tablas más grandes la funciónchisq.test()
sería la apropiada. Analizaremos estas funciones más adelante en el curso.Tratamiento de tablas de contingencia
Describe distintas funciones utilizadas en el análisis enlace -
2.2 Causación
Las medidas de correlación y covarianza nos indican cómo cambia una variable cuando la otra variable cambia. Es decir, solo nos indican cómo se mueven las variables en el dataset, pero no necesariamente nos indican que una variable causa a la otra variable.
Ejemplo: Usted dispone de un dataset que contiene población de una ciudad, el consumo de carne y el consumo de pescado en la ciudad. Existe una correlación directa entre las dos últimas variables y la población. Esto es correcto porque se asume que mientras más grande es la población de una ciudad, hay más consumo.
Pero, si se efectúa una correlación entre consumo de pescado y consumo de carne también encontrará correlación directa. ¿Significa esto que el consumo de carne hace que se consuma más pescado? Por supuesto que no. En este caso existe correlación, pero no existe causación, es decir, el consumo de carne no produce que se consuma más pescado. Por lo tanto, diremos que la causación implica correlación, pero la correlación no implica causación.
Análisis de Correlación
Describe varias funciones para análisis de correlación y causaciónAprende más
Para conocer más sobre el tema, puedes leer el siguiente artículo ¡Accede aquí!
2.2.1 Diseño de Experimentos
De acuerdo con Mendiburu F, Yaseen M. (2020), el propósito del diseño de experimentos (DoE) es poder obtener en forma segura la relación causa-efecto entre dos variables. Por ejemplo: saber si un cierto medicamento ayudó (o no) en la recuperación del paciente. Para aseverar que lo anterior es verdadero ciertas consideraciones deben cumplirse.
Asociación
El primer criterio para establecer un efecto causal es una asociación observada entre la variable predictora y de respuesta. Generalmente esto se logra mediante un análisis de correlación. Por otro lado, debemos garantizar que existe la relación tiene un ordenamiento en el tiempo. Se debe asegurar que la variación de la variable predictora se produjo antes del tiempo de la variación de la variable de respuesta.
Detección de asociaciones espurias
El segundo criterio es que esta relación no sea espuria, definimos como espuria a una relación que es ficticia o fraudulenta. Muchas veces nos topamos con la existencia de una tercera variable que en realidad afecta a las dos primeras. Este tipo de variable se las conoce como “confounding” (que produce confusión).
La siguiente figura ilustra la relación entre la edad del paciente y el riesgo de enfermedad coronaria. En principio parecería que la edad es un factor, pero la variable confounding sería el ejercicio.
Figura 8: Correlación vs Causación en enfermedad coronaria
Creación de autor: Alfonso PradoFigura 8: Correlación vs Causación en enfermedad coronaria
Creación de autor: Alfonso PradoPara garantizar que la relación no sea espuria debemos cumplir las siguientes condiciones:
- Dos grupos de comparación (en el caso más simple, un grupo experimental y un grupo de control), para establecer asociación.
- Variación en la variable independiente se produce antes del cambio en la variable dependiente, para establecer el orden temporal.
- Asignación aleatoria a los dos (o más) grupos de comparación, para establecer que la relación no es espuria.
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
En esta clase, iniciaremos con el análisis de la teoría de probabilidades. Continuamente, los ejecutivos de una empresa se enfrentan a la toma de decisiones de negocios y, en general, sin importar la naturaleza del negocio, es claro que dichas decisiones se basarán en la probabilidad de que determinado resultado, positivo o negativo, se produzca. Por otro lado, como habíamos visto en clases anteriores, este tipo de análisis estará siempre sujeto a un cierto nivel de incertidumbre.
Esta clase inicia con la demostración de las distintas formas de medir la probabilidad de que un evento se presente. Estas varían desde situaciones simples a complejas, incluyendo casos que involucran variables numéricas y categóricas, así como situaciones que consideran una muestra o población.
Probabilidad
Probabilidad significa posibilidad. Es una rama de las matemáticas que estudia la ocurrencia de un evento aleatorio. El valor se expresa de cero a uno. La probabilidad se ha introducido en las matemáticas para predecir la probabilidad de que ocurran eventos. El significado de probabilidad es básicamente el grado en el que es probable que algo suceda. Esta es la teoría básica de la probabilidad, que también se utiliza en la distribución de probabilidad, donde aprenderá la posibilidad de resultados para un experimento aleatorio. Para encontrar la probabilidad de que ocurra un solo evento, primero debemos saber el número total de resultados posibles.
Probabilidad acumulativa
La probabilidad acumulada se refiere a la probabilidad de que el valor de una variable aleatoria se encuentre dentro de un rango determinado. Por ejemplo: Pr(a ≤ X ≤ b) Donde X es una variable aleatoria y a y b son los límites del rango. Con frecuencia, se utiliza para calcular la probabilidad de que una variable aleatoria sea menor o igual a un valor especificado: Pr(X ≤ b)
-
Reto #2
3. PRINCIPIOS DE PROBABILIDAD
DEFINICIONES BÁSICAS
Población: La población estadística es el total de individuos o conjunto de ellos que presentan o podrían presentar el rasgo característico que se desea estudiar (economipedia). Algunos autores llaman a este concepto el universo. Veamos algunos ejemplos:
- Si el gerente de una empresa desea investigar los problemas de producción, la empresa tiene 5 plantas o fábricas, dado que los resultados son específicos para esta empresa, podemos decir que la población será todas las 5 plantas.
- Si se desea estudiar el efecto de una vacuna en niños, entonces la población será el total de niños en los que se usaran la vacuna (no el total de niños que existen).
- Si se desea estudiar la preferencia electoral se entrevistan a 10.000 personas, la población en este caso sería los ciudadanos con derecho a voto.
Muestra: Es una parte representativa de la población que se selecciona para ser estudiada. Hay varias razones por las cuales un trabajo de investigación no es posible hacerlo con toda la población. Por ejemplo:
- Ejecutar prueba sobre el 100% de la población es muy costoso, como probar una vacuna en toda la población para medir el efecto de esta.
- La población está geográficamente dispersa, por lo que sería muy costoso movilizarse a muchos lugares.
- El análisis sobre cada elemento de la población termina dañando a la población. Por ejemplo, queremos medir la resistencia de un ladrillo a la presión, en este caso el experimento terminaría con la destrucción del ladrillo. Si lo hacemos sobre el 100% de la producción de ladrillos de una fábrica, esta terminará sin inventario de ladrillos.
Parámetro y Estadístico: Estos dos conceptos son similares, pero aplican a distintos grupos. Se define como parámetro a una medida descriptiva de la población total, mientras que el estadístico representa lo mismo, pero es el valor obtenido de la muestra.
Por ejemplo, siguiendo con el ejemplo del gerente de la empresa que tiene 5 plantas de producción, el gerente ha seleccionado 2 de ellas para contabilizar la producción diaria. Esta contabilización sería mediante la medición de la producción diaria; a esto lo llamamos el estadístico, en base al cual podemos extrapolar la producción de las 5 plantas, que es el parámetro.
La figura 1 muestra la relación entre estos dos conceptos:
Figura 1: Relación entre estadístico y parámetro
Creación autor Alfonso PradoFigura 1: Relación entre estadístico y parámetro
Creación autor Alfonso PradoError de Muestreo:
El error de muestreo se define como la diferencia entre el parámetro desconocido de la población y el estadístico de la muestra utilizado para calcular el parámetro. La exactitud de toda estimación depende en gran parte del muestreo y de que este sea representativo; sin embargo, como no podemos garantizar que la muestra sea 100% representativa, siempre habrá un error de muestreo.Sesgo Muestral:
También conocido como "bias", es la tendencia a favorecer la selección de ciertos elementos de muestra en lugar de otros. Esto ocurre cuando hay una situación, intencional o no, que induce a seleccionar determinados elementos de la muestra. Por ejemplo, estimar la preferencia de voto en localidades donde nuestro candidato es favorito.Teoría del Muestreo:
En base a lo indicado anteriormente, tenemos dos conceptos que debemos balancear. El primero es que la muestra debe ser representativa de la población y el segundo es que debemos mantener una aleatoriedad en la selección de la muestra.De acuerdo con Otzen y Manterola (2017), “La representatividad de una muestra permite extrapolar y, por ende, generalizar los resultados observados en esta a la población accesible; y, a partir de esta, a la población blanco. Por ende, una muestra será representativa o no solo si fue seleccionada al azar, es decir, que todos los sujetos de la población blanco tuvieron la misma posibilidad de ser seleccionados en esta muestra y ser incluidos en el estudio y, por otro lado, que el número de sujetos seleccionados represente numéricamente a la población que le dio origen respecto de la distribución de la variable en estudio en la población, es decir, la estimación o cálculo del tamaño de la muestra”.
Técnicas de muestreo:
Describe los distintos mecanismos de muestreo. EnlacePrecisión:
De acuerdo con www.usc.gal, es la proximidad entre las indicaciones o los valores medidos, obtenidos en mediciones repetidas de un mismo objeto, bajo condiciones especificadas. La precisión se puede expresar numéricamente mediante medidas de dispersión tales como la desviación típica, varianza o el coeficiente de variación bajo las condiciones especificadas. La precisión se utiliza para definir la repetibilidad de medida.Ejemplo: quiero medir la temperatura de un vaso de agua. Realizo 20 mediciones y no todas arrojan el mismo valor; hay décimas de grado de diferencia debido a la precisión del instrumento de medida.
Muchas veces, la precisión del instrumento de medida puede afectar el tipo de variable que se definirá. Por ejemplo, si en la medición de la temperatura del agua utilizamos un instrumento cuya precisión es de 1 grado, entonces la temperatura ya no se puede considerar como variable continua sino discreta.
Exactitud:
En primer lugar, vale la pena puntualizar que la exactitud, a diferencia de la precisión, no se expresa en forma numérica, sino que más bien es la diferencia entre el valor obtenido y algo que se considera verdadero. Por ejemplo, mido la temperatura del aire con un termómetro y la comparo con la temperatura publicada en una página web que se considera “correcta.” Por lo tanto, si lo comparo con otra página web, mi medición podría no ser tan correcta como pensaba.Incertidumbre:
De acuerdo con www.usc.gal, la incertidumbre es el parámetro asociado con el resultado de una medición, que caracteriza la dispersión de los valores que podrían ser razonablemente atribuidos al valor a medir. El valor de incertidumbre incluye componentes procedentes de efectos sistemáticos en las mediciones, debido a componentes que se calculan a partir de distribuciones estadísticas de los valores que proceden de una serie de mediciones y valores que se calculan a partir de funciones de densidades de probabilidad basadas en la experiencia u otra información.¡Definición un tanto complicada! Más sencillo: cuando se desea medir un parámetro de la población, lo haremos mediante un muestreo, como ya se ha visto. El nivel de variabilidad entre una muestra y otra es la incertidumbre. Por ejemplo, tengo un dataset con personas y datos relacionados a ellas. Realizo un muestreo y obtengo una media de la edad de la muestra, digamos 35 años; luego realizo otro muestreo y obtengo 45 años; luego realizo otra medida y obtengo 40 años; puedo concluir que la incertidumbre está alrededor de 10 años.
-
3.1 Probabilidad condicional
En el lenguaje formal de la incertidumbre, que es la base de la inferencia, el problema básico que estudiamos en es: dado un proceso generador de datos, ¿cuáles son las propiedades del resultado? Wasserman (2015). Más específicamente, cuán seguido podemos esperar obtener un valor en particular si repetimos una medición muchas veces y se denota como P(X).
La probabilidad se define como un valor numérico que estará entre 0 y 1 y representa cuál es la posibilidad de que un evento se presente; se escribe de la siguiente forma: P(x) = 0 ≤ x ≤ 1, donde x representa el evento. Por ejemplo, la probabilidad de pasar este curso sin estudiar sería P(sin estudiar) = 0.
En general, podemos establecer la siguiente fórmula para calcular una probabilidad:
Figura 2: Fórmula de la probabilidad
Figura 2: Fórmula de la probabilidad
Al número de resultados posibles también se le denomina el espacio muestral, por ejemplo, para el lanzamiento de un dado los posibles resultados son {1,2,3,4,5,6}. La probabilidad de que uno de los resultados del espacio muestral se presente es 1 y lo denotamos de la siguiente forma: ∑ P(Ei)=1
Existen básicamente 3 formas de cálculo de probabilidades:
- Modelos de frecuencia relativa o a-posteriori, basados en información histórica
- Modelo clásico o a priori, basado en posibles resultados
- Modelos subjetivos, cuando asignamos una probabilidad a algo que no ha sucedido
FRECUENCIA RELATIVA
Este modelo utiliza los datos de las observaciones que se han registrado y, en base a estos, calcula la frecuencia con la que se ha presentado dicho evento y, en base a esta frecuencia, se calcula la probabilidad.
Figura 3: Fórmula de frecuencia relativa
Figura 3: Fórmula de frecuencia relativa
Este modelo es también llamado a posteriori, dado que la data ya ha sido recabada. Por ejemplo, utilizando el dataset BrCa que tiene 2982 observaciones, se ha estimado la cantidad de observaciones de la variable “size” y su probabilidad relativa en base a los distintos niveles.
Tabla1: Ejemplo Probabilidad Relativa del dataset BrCa
Tabla1: Ejemplo Probabilidad Relativa del dataset BrCa
Este modelo puede presentar algunos problemas. Por ejemplo, de la fórmula podemos deducir que, si las observaciones no incluyen una o más posibilidades, será imposible calcular la probabilidad. Por otro lado, si se cuenta con pocas observaciones, los resultados pueden ser engañosos.
Adicionalmente es común que se pregunte por la probabilidad combinada de varias observaciones, para lo cual distinguiremos dos tipos de combinaciones:
La multiplicativa: Denotada por: P(A∩B) = P(A) * P(B)
Por ejemplo, del dataset mtcars, se desea obtener la probabilidad de sacar un vehículo de 4 cyl que sea automático.
Figura 4: Distribución de probabilidades de variables cyl y am en mtcars
Figura 4: Distribución de probabilidades de variables cyl y am en mtcars
Entonces P(4cyl) * P(automático) =0.6*0.2=12%
Por otro lado, las probabilidades aditivas resultan de la suma de dos probabilidades, es decir, al investigador le da igual que cualquiera de los dos resultados ocurran. La probabilidad aditiva de A o B denotado como P(A U B) y su fórmula es: P(A U B) =P(A)+P(B)-P(A∩B)
Por ejemplo: La probabilidad de sacar un as o una de las 13 cartas de corazones sería P(as U corazones) =(4/52)+(13/52)-(1/52) =16/52 De acuerdo con Webster (2017) los eventos A y B no necesariamente son excluyentes, es decir si ambos pueden ocurrir al mismo tiempo caeremos en doble conteo, en cuyo caso restaremos las posibilidades de este doble conteo ya que existe una carta que es as de corazones. Pero si los eventos son excluyentes entonces la fórmula quedaría así: P(A U B) =P(A)+P(B)
Probabilidad Condicional:
Con frecuencia se desea determinar la probabilidad de algún evento (A), dado que antes otro evento ya haya ocurrido (B) y se denota como P(A|B) y su fórmula es:
Figura 5: Probabilidad condicional
Figura 5: Probabilidad condicional
La probabilidad condicionada permite calcular la probabilidad de la intersección de dos sucesos, es decir, la probabilidad de que se den ambos sucesos A y B, de esta forma, la probabilidad de que tanto A como B ocurran es igual a la probabilidad de que A ocurra dado que B haya ocurrido multiplicado por la probabilidad de que B ocurra. En este caso, la probabilidad de que A ocurra no está afectada por la ocurrencia o no ocurrencia de B y se dice que los dos sucesos son independientes.
Por ejemplo, calcular cuál es la probabilidad de obtener una J dado que sabemos que es una figura F, denotado como P(J|F).
Aplicando la fórmula anterior tendríamos:
- P(J) = 4/52 dado que existen 4 Js
- P(F|J) = 1 porque todas las J son figuras
- P(F) = 12/52 porque existen 12 figuras
Por lo tanto, P(J|F) = (4/52) * 1 / (12/52) = 4/12
Este es el concepto de probabilidad condicional del evento A dado que se conoce que el evento B ya ocurrió.
-
3.2 Teorema de Bayes
Supongamos que tenemos un conjunto completo de sucesos Ai, i = 1, ..., n y un suceso B cualquiera del espacio muestral. A veces es necesario conocer la probabilidad de uno de los sucesos Aj condicionada a que haya ocurrido B. Esto se puede hacer por el Teorema de Bayes.
Veamos un ejemplo concreto:
Una fábrica tiene 2 equipos que producen la misma mercadería, la máquina 1 es más nueva y por lo tanto trabaja más rápido y produce el 60% de la producción, la máquina 2 es más antigua y produce el 40% restante. La máquina 1 además tiene apenas un 2% de producto descartado, mientras que la máquina 2 tiene un 4% de producto descartado. De esta descripción podemos concluir lo siguiente tabla
Tabla 2: Cálculo de probabilidad del ejemplo
Tabla 2: Cálculo de probabilidad del ejemplo
Entonces, conociendo en qué máquina fue producido un ítem, podemos obtener su probabilidad de que este sea OK o Descartado (Des). Sin embargo, es posible que deseemos hacer el análisis inverso: dado un ítem que sabemos ha sido descartado, ¿cuál es la probabilidad de que haya sido producido en la máquina 1? Para lo cual aplicamos la fórmula de probabilidad condicional.
Figura 6: Fórmula de Probabilidad Condicional
Figura 6: Fórmula de Probabilidad Condicional
Que en nuestro ejemplo sería:
Pero el problema es que P(Des) no se conoce. Aquí entra el teorema de Bayes que establece:
Figura 7: Teorema de Bayes
Figura 7: Teorema de Bayes
Que en nuestro ejemplo sería
P(Des) = P(M1 ∩ Des) / (P(M1 ∩ Des) + P(M2 ∩ Des))
P(Des) = 0.012 / (0.012 + 0.016) = 0.429
Aprende más
Para conocer más sobre Teorema de Bayes, puedes leer el siguiente artículo ¡Accede aquí!
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
En esta clase, vamos a cubrir los conceptos de distribución. En estadística, cuando nos referimos a la palabra "distribución," en realidad queremos decir distribución de probabilidades. En el área de conocimiento de la estadística, existe una gran cantidad de distribuciones; algunas representan distribuciones que se presentan en problemas de la vida real, y otras son más bien “curiosidades” matemáticas que nos ayudan en la resolución de problemas.
En clases anteriores, habíamos discutido los dos tipos de variables numéricas, a saber: continuas y discretas, y en función de estos tipos, vamos a estudiar las distribuciones que aplican en cada caso. En esta clase nos centraremos en la distribución gaussiana y normal.
Distribución Normal
Llamada también como distribución de Gauss, es la distribución de probabilidad más utilizada en estadística y teoría de probabilidad. Esto se debe a dos razones: - Su función de densidad es simétrica y con forma de campana lo que favorece su aplicación como modelo a gran número de variables. - Es además límite de otras distribuciones y aparece relacionada con resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas.
Asimetría
Es la falta de simetría entre los datos de una distribución. El concepto de asimetría se refiere a si la curva que forman los valores de la serie presenta la misma forma a la izquierda y derecha de un valor central (media aritmética).
-
Reto #2
4. Medición de Probabilidad variables continuas
¿Qué es una distribución?
Cuando usamos el término "distribución" en estadística, usualmente queremos decir una distribución de probabilidad. Una distribución de probabilidad es una función que muestra los valores posibles para una variable y con qué frecuencia ocurren.Cuando son datos numéricos, a menudo se ordenan de menor a mayor y se calcula la probabilidad de obtener cada uno de estos; por último, los visualizaremos para examinar la forma, el centro y la cantidad de variabilidad en los datos.
Cuando examinamos un proceso generador de datos, podríamos decir que, en general, el proceso podría tener datos que van desde -∞ a +∞, pero en la práctica, la mayoría de los fenómenos, eventos y procesos, etcétera, que se examinan tienden a agruparse alrededor de un valor medio, y mientras más se alejan de esta media, la probabilidad de ocurrencia disminuye. Si graficamos la probabilidad de ocurrencia, veremos que sigue una forma de campana.
-
4.1 Distribución normal
En esta distribución de probabilidades, la variable es de tipo continua, por lo tanto, la variable puede tomar una cantidad infinita de valores. Para cada valor de la variable aleatoria, calcularemos su probabilidad y, si trazamos un diagrama en el cual en el eje X colocamos el valor de la variable y en el eje Y la probabilidad obtenida, veremos que van delineando la forma de una campana de Gauss; por eso, le llamamos una distribución gaussiana.
Esta distribución tiene las siguientes características:
- La curva es simétrica con respecto a su media. Hay más probabilidad de valores cercanos a la media, el 50% de los resultados caen debajo de la media, el otro 50% sobre la media.
- La curva decrece uniformemente en ambas direcciones a partir del valor central.
- Es asintótica, esto significa que la curva se acerca cada vez más al eje x, pero en realidad nunca llega a tocarlo. Esto es, los puntos extremos de la curva se extienden indefinidamente en ambas direcciones.
- La media, mediana y moda son iguales.
Figura 1: Distribución de una variable gaussiana
Creación de autor Alfonso PradoFigura 1: Distribución de una variable gaussiana
Creación de autor Alfonso PradoPor supuesto, no todos los procesos que generan este tipo de distribución presentan exactamente esta curva. Note, por ejemplo, que esta curva está centrada en el valor 10 y, aunque no es fácil de visualizar, una desviación estándar de 12. Para entender este concepto, veamos la función matemática que genera esta curva.
Figura 2: Función CDF de la distribución gaussiana
Figura 2: Función CDF de la distribución gaussiana
Donde:
- µ es la media, la mediana, la moda y el valor esperado
- σ es la desviación estándar de la población
- σ² es la varianza
- Φ representa la función de densidad de probabilidad
Note que en la función figuran los valores de µ (media) y σ (desviación estándar), esto quiere decir que la distribución varía en función de estos argumentos y, en última instancia, del proceso generador de datos. Cuando la media de una distribución es cero y la desviación estándar es igual a uno, decimos que tenemos una distribución gaussiana normal o estándar.
-
4.2 Funciones de distribución normal
Funciones de probabilidad:
Las funciones de probabilidad son funciones estadísticas (es decir, no son funciones programáticas) que describen la distribución de probabilidad de una variable aleatoria.
Tabla 1: Funciones de probabilidad
Tabla 1: Funciones de probabilidad
En distribución gaussiana las funciones PDF y CDF siguen la forma indicada en la siguiente figura
Figura 3: Función PDF (a) y CDF (b) de una distribución gaussiana
Creación de autor Alfonso PradoFigura 3: Función PDF (a) y CDF (b) de una distribución gaussiana - Creación de autor Alfonso Prado
Note que la función PDF nos indica que la máxima probabilidad se da en la media y que la suma de las probabilidades (o el área debajo de la curva) siempre será igual a 1 o 100%. Por otro lado, el CDF representa la probabilidad acumulada desde -∞ hasta un valor dado, por lo que en la medida que dicho valor dado incrementa, la probabilidad acumulada tiende a 1.
En base a lo anterior, podemos concluir que la probabilidad de un valor dado de la variable aleatoria va a depender de su distribución. Por ejemplo, la probabilidad de obtener el valor 100 en la figura 3a es relativamente baja; sin embargo, la probabilidad obtenida si la distribución estuviera centrada en 100 sería la más alta. Aquí entra el estadístico Z.
Estadístico Z
Eventualmente, necesitamos comparar dos distribuciones que tienen µ y σ diferentes para ver qué tan alejado está un valor x dado de la media. En estos casos, la comparación de las distribuciones se vuelve muy complicada, por lo que se estila usar el estadístico Z.
Z se denomina variable tipificada de X. Es una forma de ver a cualquier distribución en forma estandarizada en términos/múltiplos de su desviación estándar, en otras palabras, el valor Z es la cantidad de desviaciones estándar a la que está distanciada un valor x de su media.
Figura 4: Fórmula de cálculo del estadístico Z
Figura 4: Fórmula de cálculo del estadístico Z
Entonces, si tenemos una distribución gaussiana y tomando en cuenta el cálculo de las probabilidades de la figura 2, podemos asegurar que a Z = ±1σ, tenemos una suma de probabilidades (o cobertura) del 68.26%, o, en otras palabras, dentro de ±1σ tenemos una probabilidad de encontrar el 68.26% de los valores.
A Z = ±2σ tenemos una cobertura del área (o están incluidos) el 95.44% de las probabilidades.
A Z = ±3σ tenemos una cobertura del área (o están incluidos) el 99.72% de las probabilidades.
La figura 5 resume el valor Z, su equivalencia en sigmas y el porcentaje de cobertura de las probabilidades.
Figura 5: Relación entre Z, σ y cobertura
Tomado de Webster (2017)Figura 5: Relación entre Z, σ y cobertura
Tomado de Webster (2017)Sin embargo, de lo mencionado arriba, ningún problema de distribución se trata en términos de cobertura del 68.26% , 95.44% o 99.72% , más bien se utilizan los valores más estandarizados de Z que corresponden valores como se muestra en la tabla 3.
Tabla 3: Valor Z y cobertura de probabilidades
Tabla 3: Valor Z y cobertura de probabilidades
Funciones programáticas distribución gaussiana
Como habíamos indicado anteriormente, las funciones PDF y CDF son conceptos estadísticos, pero ahora veremos cuáles son las funciones programáticas que nos ayudan en el cálculo de probabilidades.
La siguiente tabla indica cómo calcular la función PDF, CDF y el inverso de CDF de una distribución gaussiana (valores por defecto mostrados).
Tabla 4: Funciones programáticas de la distribución
Creación de autor Alfonso PradoTabla 4: Funciones programáticas de la distribución
Creación de autor Alfonso PradoFunción rnorm
Esta función sirve para generar un conjunto de datos que sigue una distribución dada por los argumentos mean (media) y sd (la desviación estándar). El argumento n representa la cantidad de elementos que se desea tenga la distribución.
Función dnorm
Esta función devuelve el valor de la función de densidad de probabilidad (PDF) de la dada una determinada variable aleatoria x, una media poblacional μ y la desviación estándar poblacional σ.
Veamos un ejemplo.
Obtenemos la siguiente figura:
Figura 6: Distribución y probabilidad puntual
Creación de autor Alfonso PradoFigura 6: Distribución y probabilidad puntual
Creación de autor Alfonso PradoFunción pnorm
Esta función calcula la probabilidad acumulada de una distribución dada por los argumentos de media y desviación mencionados anteriormente. Adicionalmente hay otro argumento lower.tail que es una variable lógica (TRUE/FALSE) y que indica el tipo de cálculo que se requiere. Por ejemplo, con
lower.tail=TRUE
(que es el valor por defecto) calculará la probabilidad acumulada desde -∞ hasta el valor dado por el argumento q, pero conlower.tail=FALSE
calculará la misma probabilidad desde valores mayores a q hasta +∞.El siguiente gráfico explica el concepto. Es importante notar que mientras el parámetro
lower.tail = TRUE
calcula la probabilidad acumulada para un valor x ≤ q, cuando usamoslower.tail=FALSE
calcula para valores mayores a q.
Figura 7: Probabilidad acumulada en rojo con lower.tail=TRUE (a) y lower.tail=FALSE (b)
Creación de autor Alfonso PradoFigura 7: Probabilidad acumulada en rojo con lower.tail=TRUE (a) y lower.tail=FALSE (b)
Creación de autor Alfonso PradoFunción qnorm
Comúnmente se nos presenta el problema inverso al anterior, es decir, queremos obtener el valor debajo del cual se acumula una cierta probabilidad. Para esto, utilizamos la función
qnorm
. Sus argumentos son similares a los depnorm
, excepto que ahora el argumentoq
representa la probabilidad acumulada que se desea obtener y la función retorna el valor debajo o encima del cual se obtiene dicha probabilidad.
Figura 8: Código para validar el inverso de CDF Figura 8: Código para validar el inverso de CDF
Distorsiones a la curva de distribución
En la práctica la curva de densidad no es siempre tan perfecta, todo depende del proceso generador de la data. Hay dos fenómenos que se presentan:
Skewness: Es una medida de la simetría de la curva. Esta puede estar recostada sobre uno de sus lados. Podemos medirla con la función
skewness()
, que nos devuelve un indicador mayor que cero si la distribución tiene una cola derecha más amplia, y menor que cero si la cola izquierda es más amplia.
Figura 9: Skewness positivo (a) y negativo (b) de una distribución gaussiana
Creación de autor Alfonso PradoFigura 9: Skewness positivo (a) y negativo (b) de una distribución gaussiana
Creación de autor Alfonso PradoCOMO INTERPRETAR ESTOS VALORES
Asimetría baja (casi cero):
Los valores de asimetría cercanos a cero, generalmente dentro del rango de -0,5 a 0,5, se consideran indicadores de una asimetría baja o insignificante. En un conjunto de datos con una baja, la distribución es relativamente simétrica, con una distribución aproximadamente equilibrada de valores en ambos lados de la media.
Asimetría moderada (entre -0,5 y -1 o 0,5 y 1):
Los valores de asimetría entre -0,5 y -1 (asimetría negativa) o entre 0,5 y 1 (asimetría positiva) se consideran indicadores de una asimetría moderada. En este caso, la distribución está algo sesgada, pero la asimetría no es extrema. Hay una asimetría notable en la distribución, pero aún puede ser razonablemente interpretable.
Asimetría alta (superior a -1 o 1):
Los valores de asimetría que están significativamente por debajo de -1 (asimetría negativa fuerte) o significativamente por encima de 1 (asimetría positiva fuerte) indican un alto grado de asimetría. En los conjuntos de datos con alta asimetría, la distribución es altamente asimétrica, con una cola larga en un lado. La asimetría extrema puede dificultar el análisis de los datos y puede requerir una consideración especial en los análisis estadísticos.
Curtosis:
La curtosis es una medida de la asimetría de la curva, es decir, qué tan pronunciadas son las colas en relación con una distribución normal. Podemos medir la curtosis mediante la funciónkurtosis()
.
COMO INTERPRETAR LOS VALORES
Curtosis alta (leptocúrtica):
Un valor alto de curtosis indica una distribución con un pico más pronunciado y agudo que una distribución normal. Implica que los datos están más concentrados alrededor de la media. Esto puede dar como resultado una distribución que parece más puntiaguda y menos dispersa.Curtosis baja (platicúrtica):
Un valor bajo de curtosis indica una distribución con un pico más plano en comparación con una distribución normal. Sugiere que los datos están más dispersos. Esto puede dar como resultado una distribución que parece más plana y menos puntiaguda que una distribución normal.Mesocúrtica (curtosis cero):
Un valor de curtosis de 0 (o cercano a 0) sugiere una distribución que está muy cerca de una distribución normal (en forma de campana). Los datos tienen colas y un pico similares a los de una distribución normal. Esto a veces se denomina "mesocúrtica" e indica que los datos no presentan valores atípicos excesivos ni un comportamiento extremo en términos de sus colas.
Figura 10: Distorsión de la distribución por curtosis
Creación de autor Alfonso PradoFigura 10: Distorsión de la distribución por curtosis
Creación de autor Alfonso PradoGraficación de distribución normal
Con frecuencia nos encontramos con situaciones en las que nos gustaría entender cómo se distribuye una variable en un conjunto de datos.
Existen algunas variantes de estos diagramas que se diferencian en la cantidad de información que presentan:- Histogramas
- Polígonos de frecuencia
- Diagramas de densidad
HISTOGRAMAS Y POLÍGONOS DE FRECUENCIA
Los histogramas son nada más que diagramas de barras que usan la función
stat_count
para variables discretas ystat_bin
para variables continuas.
Geom_histogram
Muestra información sobre el uso de esta función
EnlaceDebido a que los histogramas se generan al agrupar los datos, su apariencia visual exacta depende de la parametrización de la cantidad de columnas (
bin
) y del ancho del intervalo (binwidth
). Estos argumentos tienen el mismo significado que el diagramageom_bin_2d
.
Adicionalmente, pueden estar complementados por otros mapeos para obtener diversos histogramas para diferentes niveles de una variable categórica. Estos son conocidos como histogramas apilados. Funcionan bien para una pequeña cantidad de niveles, pero cuando estos niveles aumentan, el diagrama se vuelve difícil de leer.
Una opción que puede ayudar en estos casos es usar transparencia (alpha
), aunque puede ser confuso ya que aparecen nuevos colores no incluidos en la leyenda; en tal caso, la opción de polígonos de frecuencia podría ser más adecuada.
Los polígonos de frecuenciageom_freqpoly()
igual muestran la frecuencia, pero con líneas que unen los puntos máximos de cada barra de conteo, por lo que son mucho menos “congestionados”.
Figura 11: Histogramas apilado (a), con transparencia (b) y polígonos de frecuencia (c)
Creación de autor Alfonso PradoFigura 11: Histogramas apilado (a), con transparencia (b) y polígonos de frecuencia (c)
Creación de autor Alfonso PradoGráficos de densidades
La densidad representa el valor de la probabilidad para cada valor de una variable continua. Los diagramas de densidad muestran estos valores a través de una línea y son ampliamente usados para demostrar si un conjunto sigue una cierta distribución.
Aprende más
Para conocer más sobre función geom_density, puedes leer el siguiente artículo ¡Accede aquí!
Esta función tiene un parámetro de configuración conocido como “adjust” que impone un cierto nivel de suavizado. En general nos interesa ver la forma general de la curva mas no detalles, entonces “adjust” lo que hace es recortar los picos parciales que pueden aparecer. Si, por otro lado, nos interesa ver el detalle, bajaremos el valor de este parámetro.
Figura 12: Densidad de una variable (a) y efecto del parámetro adjust (b)
Creación de autor Alfonso PradoFigura 12: Densidad de una variable (a) y efecto del parámetro adjust (b)
Creación de autor Alfonso PradoEn casos en que los datos presentan alto skewness o curtosis el gráfico resultante podría ser poco informativo, en esos casos se puede utilizar escalas que permiten ver la forma de la curva, por ejemplo, scale_x_continuous(trans="log10")
Figura 13: Densidad poco informativa con skewness (a) con transformación log10 (b)
Creación de autor Alfonso PradoFigura 13: Densidad poco informativa con skewness (a) con transformación log10 (b)
Creación de autor Alfonso PradoTambién es posible que queramos analizar la densidad de una variable como se distribuye por otra variable categórica. Estos diagramas son conocidos como densidades apiladas.
Gráficos para mostrar relación cuantil-cuantil (QQ)
Hay ocasiones en las que no nos interesa ver exactamente la forma de la curva de densidad, sino únicamente comprobar si la misma se ajusta a una distribución normal o queremos comparar dos distribuciones para ver si son semejantes. En estos casos, los diagramas QQ son los apropiados.
Estos diagramas contienen dos elementos: por un lado, la distribución de la variable a analizar y una línea que indica cuál debería ser la distribución si esta fuera normal. La primera parte se obtiene mediante la función
geom_qq()
y la segunda congeom_qq_line()
.
Figura 14: Diagramas cuantil-cuantil de una distribución no normal (a) y distribución por varios factores (b)
Creación de autor Alfonso PradoFigura 14: Diagramas cuantil-cuantil de una distribución no normal (a) y distribución por varios factores (b)
Creación de autor Alfonso Prado -
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
RETO 2: Identificar la distribución que siguen las variables estudiadas realizando diversas pruebas de hipótesis
Objetivo: Entender las variables en términos de distribuciones de distinto tipo.
Indicaciones:
- Identificación del tipo de variables:
- Cualitativas y cuantitativas
- Establecer relaciones entre variables:
- Aplicar medidas de correlación y covarianza
- Visualizar las relaciones
- Aplicación de pruebas de contraste:
- Establecer hipótesis sobre la población
- Hipótesis de un lado y de dos lados
Actividades
- Realizar pruebas linealidad y normalidad para variables continuas
- Realizar pruebas pertinencia para variable nominales para variables nominales
- Realizar pruebas de hipótesis
-
Introducción
En la clase anterior habíamos examinado la distribución normal y su importancia en la estadística inferencial. Sin embargo, cuando revisamos el concepto de muestra, mencionamos la condición de que la misma debe ser representativa con respecto a la población. Sin embargo, esto no siempre es posible, como explicaremos más adelante.
En esta clase veremos por qué no siempre podemos utilizar el de 1.96 cuando el tamaño de la muestra es pequeño. En su lugar, aprenderemos cuáles serían los valores apropiados en estos casos. Por otro lado, esta distribución está relacionada con las pruebas de hipótesis realizadas con la función t.test , que es un tema de vital importancia en la estadística.
Inferencia estadística
La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cual es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.
Intervalo de confianza
El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable. Esta «alta probabilidad» se ha establecido por consenso en 95%. Así, un intervalo de confianza de 95% nos indica que dentro del rango dado se encuentra el valor real de un parámetro con 95% de certeza
-
5. Medición de Probabilidad variables continuas
En las clases anteriores habíamos mencionado el concepto de muestra y establecido que esta debe ser una parte representativa de la población que se selecciona para ser estudiada, ya que trabajar sobre la población generalmente es demasiado grande para hacer un trabajo de investigación viable. Por otro lado, si la población está estimada en cientos de miles o millones, entonces la muestra debería ser grande.
Pero trabajar con muestras grandes no siempre es posible; por ejemplo, un fabricante de autos debe certificar la resistencia de los modelos a choques frontales para salvaguardar la seguridad de los ocupantes, pero cada experimento que se realice será muy costoso debido a que terminará con la destrucción del vehículo. Esto puede ser muy costoso a largo plazo.
En otros casos, puede ser imposible contar con suficientes muestras. Por ejemplo, un laboratorio farmacéutico desea probar un nuevo fármaco que ha desarrollado. La población objetivo puede ser muy grande, de modo que se necesitaría una muestra grande. Pero el laboratorio podría tener problemas para conseguir suficientes candidatos dispuestos a someterse como voluntarios para probar el fármaco.
De acuerdo con Webster, A. (2000), cuando estudiamos el proceso general de muestreo, estadístico e inferencia del parámetro, indicamos que, si la muestra es representativa, podríamos, por ejemplo, inferir el sigma de la población en base al s de la muestra. Pero con muestras pequeñas, la diferencia entre sigma y s puede ser significativa; más aún, si se realizaran dos procesos de muestreo con pocas observaciones, los resultados de la inferencia poblacional serían diferentes. Aquí entra la distribución T.
La T es una familia de distribuciones de probabilidad continua utilizada al trabajar con poblaciones distribuidas normalmente, pero donde el tamaño de la muestra es pequeño y se desconoce la desviación estándar de la población.
-
5.1 Distribución T
La distribución t se utiliza cuando se cumplen tres condiciones:
- La muestra es pequeña. La pregunta que surge es qué se considera pequeño. Como veremos más adelante, los valores del estadístico t se aproximarán a los del estadístico Z cuando la cantidad de observaciones sea mayor a 30. Es decir, si, por ejemplo, estamos tratando con una muestra de 10 observaciones, las diferencias entre Z y t serán significativas.
- Sigma (σ) es desconocida. Normalmente, no conocemos la varianza y la desviación de la población. En la clase anterior, dijimos que, si no se conoce sigma, esta puede ser reemplazada por s/√n, pero con muestras pequeñas la diferencia entre sigma (σ) y s puede ser importante. Sin embargo, si σ es conocida, la distribución Z se usa incluso si la muestra es pequeña.
- La población presenta una distribución normal o casi normal. Esto es así dado que con muestras pequeñas es difícil asegurar que esta sigue una distribución normal. Como veremos más adelante, existen varias funciones que pueden indicar si una muestra es normal, pero en este caso, con muestras pequeñas, debemos recurrir a funciones no paramétricas.
En base a los conceptos mencionados, podemos establecer el siguiente mapa de decisión.
Figura 1: Mapa de decisión para usar distribución Z o T
Creación autor Alfonso PradoFigura 1: Mapa de decisión para usar distribución Z o T
Creación autor Alfonso PradoTEOREMA DEL LÍMITE CENTRAL
Este teorema indica que, a medida que el tamaño de la muestra, n, se haga más grande, la distribución muestral de las medias de la muestra tenderá a seguir una distribución de probabilidad normal con una media igual a la media poblacional real, μ, y un error estándar de la media σx = σ/√n.
Esto es así independientemente de la distribución, que podría ser Student T, Poisson, Binomial, etcétera, de la que se extrajo la muestra.
El teorema del límite central nos asegura que si tomamos una muestra lo suficientemente grande (n ≥ 30), entonces la distribución muestral se distribuirá normalmente, independientemente de la distribución de la población en sí. Si la población de la que se extrajeron las muestras no es normal o si simplemente no sabemos si la población es normal o no, entonces el teorema del límite central se mantendrá siempre que tengamos una muestra grande de 30 o más.
En las clases, validaremos este concepto para las distribuciones de Poisson y Binomial.
Estadístico T
Al igual que el concepto del estadístico Z, la distribución T cuenta con un estadístico llamado t que nos indica qué tan alejada de la media se halla un valor x.Este indicador nos sirve para analizar la probabilidad en la distribución t. Al igual que el Z en la distribución gaussiana, la distribución T es una distribución normal con forma de campana, pero la distribución normal es más alta en el centro y más baja en ambos extremos o colas. El área debajo representa la probabilidad de las observaciones, por lo que es probable que la mayoría de los puntos de datos estén cerca del centro del gráfico, mientras que es probable que haya menos puntos en las secciones más altas o bajas, representadas por el área más pequeña hacia las colas del gráfico.
Debido a lo anterior, la probabilidad PDF y CDF de T no son iguales a la distribución gaussiana o normal en todos los casos.
De acuerdo con Rumsay (2009), en muchos casos, no se conoce la desviación estándar de la población, σ. Para estimar la media de la población utilizando un intervalo de confianza cuando se desconoce σ, se utiliza la fórmula siguiente.
Figura 2: Fórmula de estadístico t Figura 2: Fórmula de estadístico t
Donde:
- µ = media de la población
- x = media de la muestra
- S = desviación estándar de la muestra
- n = Tamaño de la muestra
GRADOS DE LIBERTAD EN DISTRIBUCIÓN t
Decimos que la distribución T es una “familia” debido a que su forma y probabilidades varían dependiendo del concepto de Grados de Libertad, que describimos a continuación:
En general, podemos decir que una variable puede tomar una cantidad infinita de valores. Pero cuando existen restricciones, entonces no todos los valores son posibles. Veamos un ejemplo: Se dispone de un conjunto de valores como {x1, x2, x3, x4}, para una variable, pero hay una restricción, digamos que la suma debe ser 20. Entonces, si en un momento determinado tengo {1, 4, 5, }, las primeras 3 variables pueden tomar cualquier valor, es decir, tengo 3 grados de libertad. Pero la cuarta está sujeta a la restricción (tiene que ser 10).
Cuando se toma una muestra, de longitud n, n-1 vienen a ser los grados de libertad de la variable.
En general, definimos los grados de libertad como el número de observaciones menos el número de restricciones impuesta sobre tales observaciones.
CARACTERÍSTICAS DE LA DISTRIBUCIÓN T
Una distribución t es simétrica. Es una distribución en forma de campana que asume la forma de una distribución normal y tiene una media de cero.
Su distribución está parametrizada en base a los grados de libertad v = n - 1, donde n es el tamaño de la muestra.
Su varianza = v / (v - 2), donde v representa el número de grados de libertad o en función de n como se muestra en la siguientes figura.
Figura 3: Varianza de la distribución T Figura 3: Varianza de la distribución T
La varianza es mayor que 1 en todo momento. Sin embargo, tenga en cuenta que se acerca mucho a uno cuando hay muchos grados de libertad. Con una gran cantidad de grados de libertad, una distribución t se parece a una distribución normal.
Las colas de una distribución t son más gruesas y menos puntiagudas que las de una distribución normal, lo que indica una mayor probabilidad en las colas.
La forma de una distribución t cambia con el cambio en los grados de libertad. Cuanto mayor sean los grados de libertad, mayor será la probabilidad de que ocurra y cuanto mayor sea la magnitud, más se parecerá la forma de una distribución t a una distribución normal estándar.
La densidad de probabilidad PDF se calcula con la siguiente fórmula.
Figura 4: Función de densidad (PDF) de la distribución T Figura 4: Función de densidad (PDF) de la distribución T
Mediante la formula anterior, podemos realizar el siguiente diagrama de la distribución en función de los grados de libertad.
Figura 5: Distribución T en función de grados de libertad
Creación de autor Alfonso PradoFigura 5: Distribución T en función de grados de libertad
Creación de autor Alfonso PradoAprende más
Para conocer más sobre Descripción Grados de libertad, puedes leer el siguiente artículo ¡Accede aquí!
Profundiza más
Este recurso te ayudará a enfatizar sobre el uso de la función dt ¡Accede aquí!
Profundiza más
Este recurso te ayudará a enfatizar sobre el uso de las funciones pt y qt ¡Accede aquí!
-
5.2 Funciones de distribución T
Funciones programáticas distribución t
Al igual que en la distribución normal, los prefijos usados para las funciones de distribución siguen siendo los mismos:
- d: para densidad
- p: para probabilidad acumulada
- q: para obtener el inverso de p
- r: para crear un vector con determinados grados de libertad
El sufijo será siempre t.
Figura 6: Funciones programáticas de distribución T Figura 6: Funciones programáticas de distribución T
Donde:
v = grados de libertad
x = vector de valores
q = vector de cuantiles
p = vector de probabilidades
lower.tail = TRUE para calcular P[X ≤ x], FALSE para calcular P[X > x]Descripción de las funciones:
dt proporciona la densidad, pt proporciona la función de distribución, qt proporciona la función de cuantiles y rt genera desviaciones aleatorias.
Los argumentos no válidos generarán el valor de retorno NaN, con una advertencia.Intervalo de confianza para la media poblacional:
Una vez entendido el cálculo del estadístico t, podemos usarlo para inferir la media poblacional. Nótese que es similar a la fórmula utilizada en la distribución Z, pero en este caso sustituiremos el estadístico Z por t. Nuestra fórmula quedaría como se describe en la siguiente figura.
Figura 7: Intervalo de confianza para la media poblacional Figura 7: Intervalo de confianza para la media poblacional
Donde:
X es la media muestral
t es el estadístico calculado con los grados de libertad¿Ahora nos preguntamos qué pasa si tengo 2 muestras de la misma población, pero con distinta cantidad de observaciones? Obviamente, los grados de libertad serán diferentes y posiblemente la desviación estándar también lo sea.
¿Cada una de estas muestras nos daría una media estimada para la población diferente? ¿Cuál vale?
Aquí tenemos dos casos: que las varianzas sean iguales entre las dos muestras y que las varianzas sean diferentes.
Si las varianzas son iguales, vamos a calcular una varianza ponderada, en donde los pesos son los grados de libertad n – 1 para cada muestra. Esta estimación ponderada se muestra en la siguiente figura:
Figura 8: Varianzas ponderadas Figura 8: Varianzas ponderadas
El intervalo de confianza para la diferencia entre las dos medias poblacionales se halla entonces con una distribución t con grados de libertad n1 + n2 - 2.
Aprende más
Para conocer más sobre Varianzas Ponderadas, puedes leer el siguiente artículo ¡Accede aquí!
Figura 9: Intervalo de confianza para la diferencia entre medias poblacionales cuando σ1 = σ2 Figura 9: Intervalo de confianza para la diferencia entre medias poblacionales cuando σ1 = σ2
Por otro lado, cuando las varianzas son diferentes se puede aproximar los grados de libertad según la siguiente figura
Figura 10: Grados de libertad ponderados cuando σ1 ≠ σ2 Figura 10: Grados de libertad ponderados cuando σ1 ≠ σ2
Y el intervalo de confianza para la diferencia entre medias poblacionales se calcularía de acuerdo con la siguiente figura:
Figura 11: Intervalo de confianza para la diferencia entre medias Figura 11: Intervalo de confianza para la diferencia entre medias
Veamos algunos ejemplos de cómo se puede usar la distribución t.
Ejercicio 1: Un fabricante de focos asegura que su producto dura 500 horas. Es imposible hacer un muestreo grande para validar, esta es una pista que debemos usar distribución T.
Se hace una muestra con 25 focos. La media obtenida es 505.36 y una s = 12.07.
Pregunta: ¿Está o no garantizada la calidad mencionada por el fabricante?Para resolver este problema podemos hacerlo de dos maneras distintas:
a) Calculando la media poblacional
b) Comparando Tcalculado vs. Tcrítico. En este caso, vamos a calcular qué tan distanciado está la muestra con respecto a un Tcrítico obtenido para el 95% de intervalo.
En base a este último código obtenemos la siguiente figura:
Figura12: Resolución analítica del problema anterior Figura12: Resolución analítica del problema anterior
En la gráfica podemos notar que la recta roja corresponde al Tcritico al 95%, es decir, que debajo de esa línea se ubicarán el 95% de las posibilidades. Y la recta azul corresponde al t-calculado de la muestra, que se encuentra hacia la derecha, esto indica que la calidad de los focos es todavía mejor que lo garantizado por el fabricante.
Ejercicio 2
En la cafetería de los estudiantes de la PUCE, existen máquinas expendedoras de café. Una muestra de 15 tazas arroja una media de 15.3 onzas, con una varianza de 3.5. Estudiantes indican que la cantidad de café dispensado no es la correcta. Se solicita al proveedor recalibrar la máquina, después de lo cual se realiza una nueva medición: una muestra de 10 tazas produce un promedio de Primero debemos darnos cuenta de que lo que solicita el problema es la diferencia entre medias, considerando que existen dos muestras pequeñas con varianza igual. Por lo tanto, las fórmulas que aplican son las de las figuras 8 y 9.
Análisis: Revisando la respuesta de los intervalos de la diferencia (ID_bajo , ID_alto) notamos que esta diferencia no incluye el valor de 0, por lo tanto, podemos concluir que sí existió una diferencia después de la recalibración.
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
La distribución normal y T vistas en clases anteriores corresponden a distribuciones en las cuales las variables han sido numéricas continuas. En estas, si el valor de la variable aleatoria se incrementa, incluso en una cantidad pequeña, se esperaría que su probabilidad de ocurrencia aumente o disminuya, aunque sea en una cantidad mínima.
En la práctica, hay muchos fenómenos, eventos o casos en los cuales las variables no son continuas sino discretas y no responden a este comportamiento. En estos casos, las fórmulas de probabilidad y distribución vistas anteriormente para el cálculo de PDF o CDF no aplican. En esta clase, veremos dos de estos casos conocidos como la distribución binomial y una variante de esta, llamada la
Distribución Bernoulli
La distribución de Bernoulli es una distribución discreta que está relacionada con muchas distribuciones, tales como la distribución binomial, geométrica y binomial negativa. La distribución de Bernoulli representa el resultado de 1 ensayo. Las secuencias de de Bernoulli independientes generan las demás distribuciones: la distribución binomial modela el número de éxitos en n ensayos, la distribución geométrica modela el número de fallas antes del primer éxito y la distribución binomial negativa modela el número de fallas antes del éxito xésimo
EnsayosPiense en los ensayos como repeticiones de un experimento. La letra n denota el número de ensayos. Solo hay dos resultados posibles, llamados "éxito" y "fracaso", para cada ensayo. La letra p denota la probabilidad de éxito en un ensayo y q denota la probabilidad de fracaso en un ensayo. p+q=1 p + q = 1 .
-
6.1 Distribución binomial
Empecemos por definir algunos conceptos:
¿Qué es un proceso de experimentación?
Definimos los procesos de experimentación como la acción de medir u observar una actividad con el fin de recopilar datos. Supongamos que nuestro experimento de interés implica que un jugador de fútbol profesional lanza tiros libres al arco. Cada tiro libre se consideraría un para el experimento. Para este experimento en particular, solo tenemos dos resultados posibles para cada ensayo: el tiro libre entra o no entra al arco.A estos resultados se conocen como un éxito o fracaso. A este tipo de experimento llamaremos experimento binomial. Por otro lado, la distribución multinomial representa las probabilidades de varios posibles resultados a través de múltiples experimentos.
¿Qué es un ensayo en distribución binomial?
Los resultados de la distribución binomial se denominan éxito o fracaso. La palabra éxito no necesariamente significa un resultado positivo. Es solo el resultado que nos interesa. Del mismo modo, la palabra fracaso no necesariamente significa un resultado negativo; es solo un resultado que no nos interesa, o que no está mencionado explícitamente en los enunciados de los problemas.
Veamos algunos ejemplos:
- Comprobar si una parte manufacturada es defectuosa.
- Observar la cantidad de respuestas correctas en un examen de opción múltiple.
¿Qué es una prueba con reemplazo?
Decimos que la distribución binomial es una distribución con reemplazo. El concepto es el siguiente:
Supongamos que se tiene un ánfora llena de bolas rojas y azules, y una persona saca una bola a la vez. Intuitivamente, diríamos que si ya ha retirado tres bolas rojas, la probabilidad de volver a sacar más bolas rojas disminuye. Este sería un ejemplo de una distribución sin sustitución.
Por otro lado, si la probabilidad de volver a obtener el mismo color no cambia, sin importar cuántas bolas rojas o azules ya se hayan extraído previamente, se dice que es una distribución con reemplazo.
Figura 1: Distribución binomial con reemplazo.
Figura 1: Distribución binomial con reemplazo.
¿Qué es el experimento binomial?
De acuerdo con Webster (2020), un experimento binomial tiene las siguientes características:
- El experimento consiste en un número fijo de ensayos, denotado por n; este es un valor entero mayor que 0.
- Cada ensayo tiene solo dos resultados posibles, un éxito o un fracaso.
- La probabilidad de éxito y la probabilidad de fracaso son constantes durante todo el experimento y están denotados por π.
- Cada experimento indica la cantidad de éxitos que se desea obtener, denotado por x.
Funciones matemáticas de la distribución binomial
Supongamos que la probabilidad de aprobar un examen de estadística es solo el 60%, por lo que la probabilidad de reprobar es del 40%. Esto representa un experimento binomial, con p = 0.60 (la probabilidad de un “éxito”) y q = 0.40 (la probabilidad de un “fracaso”).
Podemos calcular la probabilidad puntual de obtener x éxitos en n ensayos utilizando la función PMF como se muestra en la siguiente figura.
Figura 2: PMF de la distribución binomial
Figura 2: PMF de la distribución binomial
Aprende más
Para conocer más sobre Explicación de la fórmula binomial , puedes leer el siguiente artículo ¡Accede aquí!
Vale la pena recordar para este cálculo que 0!=1 y que x0=1
Así como en la clase 2 se mostró como obtener la media de un vector de datos, también se puede determinar la media de una distribución de probabilidad. La media aritmética de una distribución de probabilidad se llama el valor esperado E(X), y se halla multiplicando n por la probabilidad como se muestra en la siguiente figura.
Figura 3: Media de la distribución de probabilidad discreta
Figura 3: Media de la distribución de probabilidad discreta
Y la varianza de la distribución se muestra en la siguiente figura
Figura 4: Varianza de la distribución binomial
Figura 4: Varianza de la distribución binomial
Generalmente, es mejor visualizar la probabilidad para entender la distribución de los datos. A diferencia de las distribuciones continuas en las que preferíamos representarlo mediante un diagrama de densidad, para las distribuciones binomiales usaremos un diagrama de barras.
Veamos un ejemplo concreto:
De acuerdo con un estudio de educación universitaria, el 40% de los estudiantes trabajan durante el verano para ganar dinero para su colegiatura del siguiente semestre.
Si 7 estudiantes se seleccionan de manera aleatoria, ¿cuál es la probabilidad de que 1, 2, 3, 4, 5, 6 o 7 estudiantes trabajen?
La solución consiste en encontrar 7 probabilidades binomiales para cada uno de los valores, con lo cual obtenemos el siguiente resultado. Note que la suma de todas las probabilidades es siempre igual a 1, lo cual es un requisito para todas las distribuciones de probabilidad.
Figura 5: Solución del problema
Creación autor Alfonso PradoFigura 5: Solución del problema
Creación autor Alfonso PradoPor otro lado, es interesante mencionar como se aplica el teorema del límite central a este tipo de distribuciones. Recordando el teorema establece que a medida que n se vuelve más grande, la distribución de las medias muestrales se aproxima a una distribución normal con una media de μ y un error estándar de σ/√n. Para esto, graficaremos 3 distribuciones binomiales con valores de cantidad de éxitos de 10 , 100 y 1000 , con una probabilidad π=0.3, y graficamos. Notaremos cómo la distribución se va aproximando a una distribución gaussiana.
El siguiente código nos permite visualizar la aplicación del teorema del límite central.
Código
# Aproximación a la distribución normal df_10 <- data.frame(Exitos = rbinom(n=10000, size=10, prob=0.3), Size=10) df_10 df_100 <- data.frame(Exitos = rbinom(n=10000, size=100, prob=0.3), Size=100) df_100 df_1000 <- data.frame(Exitos = rbinom(n=10000, size=1000, prob=0.3), Size=1000) df_1000 todo <- rbind(df_10, df_100, df_1000) head(todo) tail(todo) ggplot(data=todo, aes(x=Exitos)) + geom_histogram() + facet_wrap(~Size, scales="free")
Figura 6: Demostración del teorema del límite central en distribución binomial
Creación autor Alfonso PradoFigura 6: Demostración del teorema del límite central en distribución binomial
Creación autor Alfonso PradoUn caso especial de la distribución binomial es cuando n=1; esto es conocido como el ensayo de Bernoulli. Si solo hay un ensayo con probabilidad de éxito p y probabilidad de fracaso 1-p, esto se llama distribución de Bernoulli.
La siguiente figura muestra la probabilidad de éxito y fracaso derivadas de las fórmulas anteriores
Figura 7: Probabilidad de éxito (a) y fracaso (b) en un ensayo de Bernoulli
Figura 7: Probabilidad de éxito (a) y fracaso (b) en un ensayo de Bernoulli
Profundiza más
Este recurso presenta casos de distribución binomial ¡Accede aquí!
-
6.2 Funciones programáticas de la distribución binomial
De igual manera que en la distribución normal, para el caso binomial tenemos las funciones que nos ayudan a calcular los resultados de un experimento puntual, que sería el PMF, o resultados acumulativos CDF. También, de la misma forma, la nomenclatura sigue los mismos lineamientos de la distribución normal, solo que en este caso sustituiremos el sufijo de norm por binom.
Aprende más
Describe en detalle el uso de la funciones programáticas, puedes leer el siguiente artículo ¡Accede aquí!
Tabla1: Funciones programáticas
Funciones programáticas
Donde:
x, q: vector de cuantiles.
p: vector de probabilidades.
n: número de observaciones.
prob: probabilidad de éxito en cada prueba.
size: número de pruebas.
lower.tail: TRUE (default), probabilidad de P[X ≤ x]; FALSE, probabilidad de P[X > x].
Función dbinom
Esta función devuelve la densidad de probabilidad (PMF) de la distribución binomial, dada una determinada cantidad que representa el número de resultados positivos deseados (x), en función de una cierta cantidad de ensayos (size) y de una probabilidad de éxito constante en cada ensayo (
prob
).
Veamos un ejemplo:
Código
#Supongamos que los ítems producidos en una fábrica tienen una probabilidad de 0.005 #de ser defectuosos. Pero estos ítems se envían en cajas de cartón con 25 unidades #La fábrica produce 1500 ítems diarios. ¿Cuál es la probabilidad de que una caja de cartón elegida al azar contenga exactamente un ítem defectuoso? #En este caso el valor de 1500 ítems no tiene ninguna importancia, porque se está preguntando por caja dbinom(x=1, size=25, prob=0.005) [1] 0.1108317
Función pbinom
Esta función devuelve el valor de la función de densidad acumulada (CDF) de la distribución binomial, dada una variable aleatoria q que representa el valor discreto a partir del cual se desea acumular la probabilidad. El número de ensayos se indica mediante el argumento size, y la probabilidad de éxito en cada ensayo se define con el argumento prob.
Para determinar si la probabilidad se acumula hacia la cola izquierda o derecha, se utiliza el argumento lower.tail. Este es un valor lógico: si es TRUE, la acumulación es desde el valor discreto qhacia abajo (P[X ≤ x]); caso contrario, la acumulación es P[X > x].
Veamos un ejemplo:
Código
#Un fabricante de discos USB externos para computadora entrega su producto en cajas de 20 discos. La tasa de fallos en los discos es del 10% . se desea saber cuál es la probabilidad de que 2 o más de los discos estén defectuosos y asumiendo esa probabilidad cual variación que el cliente esperaría encontrar de una caja a otra? n=20 prob=.1 x=3 p<- pbinom(x,n,prob=prob, lower.tail=FALSE) var= 20*p*(1-p) var [1] 2.305535
Función qbinom
Esta función devuelve el valor de la función de densidad acumulativa inversa (CDF) de la distribución binomial, dada una determinada variable aleatoria p, que representa la probabilidad acumulada, un número de ensayos (size) y una probabilidad de éxito en cada ensayo (prob). El valor devuelto es el cuantil p-ésimo, es decir, el valor debajo del cual (o sobre el cual) se acumula dicha probabilidad.
El argumento lower.tail se utiliza de la misma forma que en la función pbinom.
Veamos un ejemplo:
Código
#Sobre el mismo ejemplo anterior de la fábrica #Cuál es la cantidad de ensayos que tengo que hacer para obtener una probabilidad de 30% ,teniendo un universo=10 y cuando cada prueba tiene una probabilidad del 40% qbinom(p=.3 , size=10 ,prob=.4) [1] 3
Función rbinom
Esta función genera un vector de variables aleatorias distribuidas binomialmente dada una longitud de vector n>, una cantidad de ensayos indicada por el argumento size, y una probabilidad de éxito en cada ensayo prob.
Veamos un ejemplo:
Código
#Suponga que está a cargo del QC de una fábrica. La fábrica hace 150 ítems por día. #Los ítems defectuosos deben ser re elaborados. Sabemos que hay una tasa de error histórico del 5%. Queremos estimar cuantos ítems necesitaremos arreglar cada día esta semana (laboral). #Usamos rbinom para generar una serie con estas características, porque rbinom y no rnorm, bueno el enunciado es que ya sea el item o está bien manufacturado o no, esto hace que usemos la distribución binomial rbinom (n=5 , size=150 , prob=.05) #por que n=5? Es para poner en la misma unidad, si fabricamos 150 por semana, queremos 5 muestras en la semana para tener una diaria, cada muestra representará la cantidad de pruebas con ítems malos. size y prob son obvios #Veamos casos extremos(tendríamos que reparar casi todos) rbinom (n=5 , size=150 , prob=.9) #Para n=1 solo una prueba que es la distribución de Bernoulli rbinom (n=1 , size=10 , prob=.5)
Visualización de la probabilidad acumulativa
La mejor forma de visualizar estas probabilidades acumulativas es a través de la función geom_ribbon. El siguiente código ilustra cómo lograrlo a partir de los valores obtenidos en la figura 5.
Código
#Primero debemos obtener un dataset que contenga el valor de x y su probabilidad df0 <- data.frame(x=NULL , prob=NULL) for ( a in seq(from=0, to=7, by=1)) { print(a) prob= dbinom(a,7,0.4) dfline=data.frame(x=a, prob=prob) df0 <- rbind(df0, dfline) } df0 #La vista del dataset nos presenta las probabilidades puntuales para cada valor de x #Ahora nos interesa saber la probabilidad acumulada para el valor de 4, implícitamente se estaría usando lower.tail=TRUE x prob 1 0 0.0279936 2 1 0.1306368 3 2 0.2612736 4 3 0.2903040 5 4 0.1935360 6 5 0.0774144 7 6 0.0172032 8 7 0.0016384 pbinom(4,7,0.4, lower.tail=TRUE) [1] 0.903744 #Creamos un subset de las probabilidades obtenidas dfsub <- subset(df0, x>= 0 & x<= 4) View(dfsub) x prob 1 0 0.0279936 2 1 0.1306368 3 2 0.2612736 4 3 0.2903040 5 4 0.1935360 ggplot(data=df0, aes(x=x, y=prob)) +geom_line()+ geom_ribbon(data=dfsub, aes(ymax=prob),ymin=0,fill="RED")
Figura 8: Probabilidad acumulativa en distribución binomial
Figura 8: Probabilidad acumulativa en distribución binomial
En otros casos se busca conocer la probabilidad acumulativa para un rango de valores, por ejemplo: De acuerdo con un estudio de educación universitarias, el 40% de los estudiantes trabajan durante el verano para ganar dinero para su colegiatura del siguiente semestre.
Si 7 estudiantes se seleccionan de manera aleatoria, cual es la probabilidad de que entre 3 y 5 estudiantes trabajen. Esto lo podemos mediante una diferencia de probabilidades binomiales.
Código
#Primero debemos obtener un dataset que contenga el valor de x y su probabilidad df0 <- data.frame(x=NULL , prob=NULL) for ( a in seq(from=0, to=7, by=1)) { print(a) prob= dbinom(a,7,0.4) dfline=data.frame(x=a, prob=prob) df0 <- rbind(df0, dfline) } df0 #La vista del dataset nos presenta las probabilidades puntuales para cada valor de x #Ahora nos interesa saber la probabilidad acumulada para el valor de 4, implícitamente se estaría usando lower.tail=TRUE x prob 1 0 0.0279936 2 1 0.1306368 3 2 0.2612736 4 3 0.2903040 5 4 0.1935360 6 5 0.0774144 7 6 0.0172032 8 7 0.0016384 dfsub <- subset(df0, x>= 3 & x<= 5) dfsub7 <- subset(df0, x>= 5 ) View(dfsub) ggplot(data=df0, aes(x=x, y=prob)) +geom_line()+ geom_ribbon(data=dfsub, aes(ymax=prob),ymin=0,fill="RED")+ geom_ribbon(data=dfsub7,aes(ymax=prob),ymin=0,fill="BLUE") #podemos validarlo m3 <- pbinom(2,7,0.4, lower.tail=FALSE) m5<- pbinom(5,7,0.4, lower.tail=FALSE) entre3_5 = m3-m5 entre3_5 [1] 0.5612544 #Del grafico podemos concluir que lo que la probabilidad de que entre 3 y 5 estudiantes trabajen durante el verano lo obtenemos mediante la resta de probabilidades de más de 3 estudiantes menos la probabilidad de más de 5 estudiantes. Según se muestra en la siguiente figura
Figura 9: Visualización de rango de probabilidades binomiales
Figura 9: Visualización de rango de probabilidades binomiales
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
Ahora que dominamos la distribución de probabilidad binomial, estamos listos para pasar a la siguiente distribución teórica discreta: la de . Esta distribución de probabilidad recibe su nombre de Simeon Poisson, un matemático francés que la desarrolló a principios del siglo XIX.r
La distribución de Poisson es útil para calcular la probabilidad de que ocurra una cierta cantidad de eventos durante un período de tiempo o espacio específico. Por ejemplo, podríamos usar esta distribución para determinar la probabilidad de que 10 clientes entren a una tienda durante la próxima hora, o que ocurran 2 accidentes automovilísticos en una intersección concurrida este mes.
Proceso de Poisson
Sea X (t) el número de ocurrencias del evento con el tiempo (el proceso); entonces X (t) consiste en funciones de valores enteros no-decrecientes.
PMF
Una función de probabilidad o función de masa de probabilidad es una función que devuelve la probabilidad de que una variable aleatoria discreta sea exactamente igual a algún valor. Es una función que asocia a cada punto de su espacio muestral X la probabilidad de que esta lo asuma.
-
7.1 Distribución Poisson
Para entender la distribución de Poisson debemos recordar los siguientes conceptos de la teoría de probabilidades.
Frecuencia Relativa
Este modelo utiliza los datos de las observaciones que se han registrado; con base a estos, calcula la frecuencia con la que se ha presentado dicho evento y, en base a esta frecuencia, determina la probabilidad.
Figura 1: Fórmula de frecuencia relativa
Figura 1: Fórmula de frecuencia relativa
Este modelo es también llamado a posteriori, dado que la probabilidad del evento se calcula luego de ser recabada la información.
También hay que recordar que, al calcular este tipo de probabilidad, pueden presentarse algunos problemas. Por ejemplo, de la fórmula podemos deducir que, si las observaciones no incluyen una o más opciones, será imposible su cálculo de probabilidad; además, si se cuenta con pocas observaciones, sus resultados pueden ser engañosos.
Esta distribución, ideada por Simeon Poisson en 1840, se refiere a variables aleatorias de naturaleza discreta que tratan de inferir la frecuencia relativa de un evento sobre alguna unidad de tiempo o espacio. Por ejemplo, se utiliza para describir el número de llegadas de clientes por hora, el número de accidentes cada mes, el número de defectos en un enlace de fibra óptica por kilómetro, etcétera. Es decir, cada vez que se vea un enunciado en el que se pretende conocer el valor de una variable por tiempo o espacio, será una clave para revisar la distribución de Poisson.
Qué es un proceso de Poisson
De acuerdo con Donnelly R. (2019), un proceso de Poisson tiene las siguientes características:
- El experimento consiste en contar el número de ocurrencias de un evento durante un período de tiempo, área, distancia o cualquier otro tipo de medición, este valor será dado por el argumento k.
- La probabilidad de ocurrencia del evento es constante para dos intervalos cualesquiera de tiempo o espacio. Por ejemplo, si seis clientes entran a la tienda durante la primera hora de actividad, esto no tendría ningún efecto en el número de clientes que llegarían durante la segunda hora, esto estaría calculado en la media como se menciona a continuación.
- La media de la distribución de Poisson tiene que ser la misma para cada intervalo de medición y se denota con el argumento λ.
- El número de ocurrencias durante un intervalo es independiente del número de ocurrencias en cualquier otro intervalo.
- Los intervalos no se superponen. Por ejemplo, al contar el número de clientes que entran a la tienda en períodos de una hora, los períodos de una hora no pueden superponerse entre sí. Podemos contar el número de clientes que llegan entre las 9 y las 10 a. m. y entre las 10 y las 11 a. m., y así sucesivamente, pero no podemos utilizar otro período de 9:30 a 10:30 a.m. porque se superpone con los otros intervalos.
FUNCIÓN DE PROBABILIDAD
Recordando el concepto de la función PMF, esta calcula una probabilidad puntual; por ejemplo, la probabilidad de que entren 3 personas a una tienda asumiendo un lambda de x. De acuerdo con Webster (2020), dado los supuestos mencionados arriba, la función de probabilidad estará dada por la siguiente fórmula:
Figura 2: Función PMF para la distribución de Poisson
Figura 2: Función PMF para la distribución de Poisson
¡Note que al encontrar un k! implica que la variable debe ser discreta, dado que no es posible calcular el factorial de un valor con decimales.
A diferencia de la distribución binomial, en la cual el experimento toma solo dos posibles resultados (el evento se presenta o no), en el proceso de Poisson se puede tener cualquier cantidad de resultados en la unidad de medida. Por ejemplo, la cantidad de clientes que ingresan a un banco físicamente durante la siguiente hora podría ser cero, uno, dos, tres, etc. La variable aleatoria para la distribución de Poisson sería la cantidad real de ocurrencias, en este caso, la cantidad de clientes que llegan durante la siguiente hora. Con esto en mente, entonces el CDF, que es la función de probabilidad acumulativa, se evalúa como la sumatoria de las probabilidades de todos los posibles valores de la variable discreta (x) que sean menores al valor k, dando como resultado la siguiente fórmula, por lo que es importante revisar la fórmula CDF de esta distribución.
Figura 3: Función CDF para distribución de Poisson
Figura 3: Función CDF para distribución de Poisson
Note la sumatoria de todas las posibilidades de X menores a K
Aprende más
Para conocer más sobre las fórmulas de la distribución, puedes leer el siguiente artículo ¡Accede aquí!
Figura 4:Media o valor esperado de aciertos (a), Varianza (b) y Desviación (c) de la distribución de Poisson
Creación de autor Alfonso PradoFigura 4:Media o valor esperado de aciertos (a), Varianza (b) y Desviación (c) de la distribución de Poisson
Creación de autor Alfonso PradoTEOREMA DEL LÍMITE CENTRAL EN POISSON
Por otro lado, es interesante mencionar cómo se aplica el teorema del límite central a la distribución de Poisson. Recordemos que el teorema establece que, a medida que n se vuelve más grande, la distribución de las medias muestrales se aproxima a una distribución normal con una media de μ y un error estándar de σ/√n. En este caso, n serían todos los posibles valores que puede tomar la variable aleatoria y, por consiguiente, está relacionado con lambda. En otras palabras, si indicamos que λ = 5, los valores posibles que puede tomar la variable se ubican alrededor de la media 5; es decir, son unos pocos valores, pero si estamos trabajando con un lambda de 100, los valores de X aumentarán considerablemente, aunque las probabilidades de algunos puedan ser muy bajas.
Cuando lambda es pequeño, podemos observar la densidad de estos pocos valores; sin embargo, a medida que lambda aumenta, la cantidad de posibles valores se expande y su densidad va delineando la campana de Gauss.
El siguiente código nos permite visualizar la aplicación del teorema del límite central.
Código
#Primero vamos a crear varios datasets que cumple con una distribución de Poisson con distintos lambda p1 <- rpois(n=10000 , lambda=1) p2 <- rpois(n=10000 , lambda=2) p3 <- rpois(n=10000 , lambda=5) p4 <- rpois(n=10000 , lambda=10) p5 <- rpois(n=10000 , lambda=20) #Colocamos todos los datasets en el mismo dataframe pos_df <- data.frame(l1=p1, l2=p2, l5=p3, l10=p4, l20=p5) head(pos_df) # Para poder visualizar mejor vamos a transponer las columnas en filas #la función melt pasa valores que están en columnas a filas en una columna #llamada valor en este caso pos_melted <- melt( data=pos_df , variable.name="lambda", value.name="valor") head(pos_melted) class(pos_melted$lambda) #Si la columna lambda fuera de tipo "character", necesitaríamos convertirla en tipo factor para poder manejar el agrupamiento, para lo cual deberemos hacer una conversión si arriba salió tipo factor estamos OK head(pos_melted) tail(pos_melted) class(pos_melted$lambda) #Visualizamos la densidad ggplot(pos_melted , aes(x=valor))+ geom_density(aes(group=lambda, color=lambda, fill= lambda , alpha=1/2 ) )+ scale_color_discrete() + scale_fill_discrete()+ xlab(“Valor de X”)
Figura 5: Demostración del teorema del límite central
Creación de autor Alfonso PradoFigura 5: Demostración del teorema del límite central
Creación de autor Alfonso Prado -
7.2 Funciones de distribución de Poisson
Al igual que la distribución normal, los prefijos usados para las funciones de distribución siguen siendo los mismos: "d" para densidad, "p" para probabilidad acumulada, "q" para obtener el inverso de p y "r" para crear un vector con determinado lambda, y el sufijo será siempre "pois".
Figura 6: Funciones programáticas de la distribución Poisson
Creación de autor Alfonso PradoFigura 6: Funciones programáticas de la distribución Poisson
Creación de autor Alfonso Prado- x
- Vector de cuantiles que (enteros positivos).
- q
- Vector de cuantiles.
- p
- Vector de probabilidades.
- n
- Número de valores aleatorios a devolver.
- Lambda
- Vector de medias (no negativas).
Aprende más
Para conocer más sobre funciones programáticas, puedes leer el siguiente artículo ¡Accede aquí!
Veamos ejemplos de uso de las funciones
Función rpois
Esta función retorna una cantidad dada de valores que cumplen con una media de distribución dada por lambda en un tiempo definido o en un espacio determinado.Código
#Generar una serie con la distribución de Poisson #La función rpois() obtiene la serie #la sintaxis es: #rpois(n, lambda) #Donde: #n es el número de valores deseados que deseamos #lambda media histórica por unidad de tiempo #Ejemplo: Generar una serie de 10 elementos que representa la ocurrencia de un evento, cuya media por unidad de tiempo ha sido 10 p0 <- rpois(n=10 , lambda=10) p0 [1] 9 6 14 11 5 13 8 11 18 11 mean(p0) [1] 10.6 #Note: la media se aproxima a lambda en la distribución de Poisson, pero no es exactamente 10. Esto se debe a la pequeña cantidad de valores generados.#Intentando con un n más grande. p0 <- rpois(n=1000 , lambda=5) head(p0,n=15) [1] 5 6 3 7 7 4 3 6 1 3 4 5 2 5 3 mean(p0) [1] 5.0324 #Vemos que se acerca más
Función dpois
Esta función permite calcular la densidad de probabilidad para un valor puntual de x. En otras palabras, corresponde a la función de masa de probabilidad PMF. Si x es un vector, calculará la densidad para cada uno de los valores.Código
#Su sintaxis es: #dpois(x, lambda, log = FALSE) #Donde: #x Vector de cuantiles. #lambda es la media histórica #log TRUE su se desea obtener log(P[X]) FALSE si se desea obtener P[X] #Ejemplo: Cuál es la probabilidad de hacer de exactamente 4 ventas en una semana si la tasa de ventas promedio es de 3 por semana? dpois(4, lambda=3) [1] 0.1680314 #Otro ejemplo: Una compañía constructora es responsable por la construcción de un edificio, al terminar el mismo se han detectado 2 defectos por cada piso. Para el nuevo contrato, la contratante desea poner una multa por defectos Le preguntan a usted cual es la probabilidad de tener 3 defectos por piso. dpois(3,lambda=2)
Es importante mencionar que el valor de x debe estar expresado en las mismas unidades que lambda. En caso contrario, se debe convertir lambda para que ambos coincidan en unidades. La conversión puede hacerse con la siguiente fórmula:
Veamos un ejemplo:
Función ppois
Esta función calcula la probabilidad acumulativa CDF para una distribución Poisson, tomo como argumentos el vector de cuantiles q, el lambda y el argumento de lower.tail que tiene igual significación que lo visto anteriormente.Ejemplo
El número medio de automóviles que pasan por la intersección en una minuto determinada es λ = 15. Si queremos saber la probabilidad de que pasen exactamente 13 automóviles por ella en la próxima minuto.
Pero más comúnmente las autoridades estarán interesadas en saber la probabilidad de que la cantidad de vehículos por minuto sea 20 o más, porque en dicha situación los mecanismos de control del tránsito ya no funcionarían .
Ejemplo con conversión de lambda
Si usted recibe llamadas al celular a una tasa constante 2 llamadas por hora. Si usted va al cine y se olvida de apagar su celular, ¿cuál es la probabilidad de que en una película de 1.5 horas, su teléfono timbre?
De este problema debemos notar dos cosas, la primera es que otra vez el lambda del enunciado no está en la misma unidad del lambda que se pregunta. Y la segunda es que el enunciado no indica si el teléfono sonará 1,2, o más veces, por lo tanto, concluimos que estamos ante una pregunta de probabilidad acumulativa o CDF.
CÓMO VISUALIZAR LA DENSIDAD DE PROBABILIDAD
Entender las probabilidades es mucho más fácil en forma visual. Veamos un ejemplo: Una comercializadora tiene un promedio de ventas a 3 clientes por hora, queremos saber: cuál es la probabilidad de que en la próxima hora de consigan 0,1,2,3,4,5,6,7,9 o 10 ventas.
Código
#opción para presentación de números con decimales o exponenciales options(scipen = 999, digits = 2) #creamos unos vectores ventas <- 0:10 #Obtenemos las densidades densidad <- dpois(x = ventas, lambda = 3) #Obtenemos el CDF prob <- ppois(q = ventas, lambda = 3, lower.tail = TRUE) #pasamos los datos a dataframe df <- data.frame(ventas, densidad, prob) #Visualizamos ggplot(df, aes(x = factor(ventas), y = densidad, fill="PDF")) + geom_col() + geom_text( aes(label = round(densidad,2), y = densidad + 0.01), position = position_dodge(0.9), size = 3, vjust = 0 ) + labs(title = "PDF y CDF de Poisson ", x = "Ventas (x)", y = "Densidad") + geom_line(data = df, aes(x = ventas, y = prob) , color="blue") #Comparemos con el gráfico dpois( 1, lambda = 3) # da la probabilidad exacta de 1 venta [1] 0.15 dpois( 4, lambda = 3) # da la probabilidad exacta de 4 ventas [1] 0.17 ppois(4, lambda=3 , lower.tail=TRUE) #da la probabilidad de 4 ventas o menos [1] 0.82 ppois(4, lambda=3 , lower.tail=FALSE)# da la probabilidad de mas de 4 ventas [1] 0.18
Y obtenemos el siguiente gráfico
Figura 7: PMF Y CDF en Distribución Poisson
Creación de autor Alfonso PradoFigura 7: PMF Y CDF en Distribución Poisson
Creación de autor Alfonso PradoFunción qpois
Como ya sabemos estas funciones q lo que nos indican es el inverso de las probabilidades, es decir, dado un vector p de probabilidades, encontrar los cuantiles debajo de los cuales se acumula las probabilidades p.
Por ejemplo:
Profundiza más
Este recurso te presenta casos de distribución Poisson ¡Accede aquí!
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
El análisis estadístico en investigaciones se basa en la idea clave de que hacemos observaciones sobre una muestra de sujetos y luego extraemos inferencias sobre la población de todos esos sujetos de los que se extrae la muestra. Si la muestra del estudio no es representativa de la población, es muy posible que obtengamos resultados incorrectos.
En la presente clase, veremos cómo obtener los estadísticos que describen a la población, tomando en cuenta la variación aleatoria en la muestra. Esto se debe a que los resultados de una sola muestra estarán sujetos a incertidumbre estadística, que está estrechamente relacionada con el tamaño de la muestra.
Re-muestreo
Las técnicas de remuestreo son métodos para crear nuevas muestras de datos a partir de un conjunto de datos existente mediante el uso de selección aleatoria o manipulación. La idea es imitar el proceso de muestreo de la población de interés, sin hacer suposiciones sobre su distribución o parámetros
Grados de Libertad
En la estadística inferencial, el término grados de libertad se define normalmente como el número de observaciones que son libres de variar, dada una o más restricciones matemáticas, en un conjunto de valores utilizados para estimar alguna característica de la población.
Dicho de otra manera, los grados de libertad son el número de observaciones independientes menos el número de restricciones asociado a esas observaciones. -
¿Qué es inferencia?
La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cuál es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.
Los métodos paramétricos de la inferencia estadística se pueden dividir básicamente en dos:
- Métodos de estimación de parámetros
- Métodos de contraste de hipótesis
Ambos métodos se basan en el conocimiento teórico de la distribución de probabilidad del estadístico muestral que se utiliza como estimador de un parámetro. (http://www.ub.edu/)
La inferencia nos permitirá trazar una línea lógica de causa-efecto, entre los diferentes puntos inferidos en la resolución del problema. (https://dle.rae.es/inferencia)
¿Qué es la estimación puntual?
La estimación puntual es un valor único que describe mejor la población de interés, siendo la media de la muestra y la proporción de la muestra los más comunes.
¿Qué es un intervalo de confianza?
Existen muchas definiciones, de las cuales extraemos las más relevantes:
- Una estimación de intervalo combinada con una declaración de probabilidad.
- Estimación de intervalo calculada a partir de estadísticas de los datos observados, que pueden contener el valor verdadero de un parámetro de población desconocido. El intervalo tiene un nivel de confianza asociado que califica el nivel de confianza de que un parámetro se encuentra en el intervalo.
- Un rango de valores tan definido que existe una probabilidad específica de que el valor del parámetro se encuentre dentro de él.
De lo anterior podemos extraer las siguientes conclusiones: Es un intervalo de valores, es decir, este intervalo se encuentra entre un valor a y b. Dentro de este intervalo creemos que se encuentra una media poblacional de la variable bajo análisis. Y aunque no sabemos exactamente en qué parte de este intervalo, podemos asegurar que existe una probabilidad concreta de que esto sea correcto.
Intervalos de confianza y nivel de significancia
Cuando usamos métodos paramétricos, la probabilidad se calcula en base a una distribución gaussiana o normal y sabemos que una muestra dada tendrá una media que se halla dentro de un nivel de significancia definido con la probabilidad de un error (el valor α).
Para el intervalo de confianza del 95 por ciento, el 95 por ciento de todos los intervalos contendrá la media de la población. El 5 por ciento restante podrían caer fuera del intervalo por temas de azar (muestra 5 en la figura 1).
Figura 1: Múltiples muestras y la media poblacional
Figura 1: Múltiples muestras y la media poblacional
Notamos que el 5 por ciento de los intervalos no contendrá la media de la población. Estos caen en lo que denomina valor alfa (α), el nivel de significancia α representa las colas de la distribución y como la curva es simétrica, tendremos α/2 a cada lado.
Distribución normal y tamaño de colas
Creación de autor: Alfonso PradoDistribución normal y tamaño de colas
Creación de autor: Alfonso PradoLos niveles de confianza α están relacionados con los valores Z, como se explica en la siguiente tabla:
Tabla 1: Relación ente valores Z y α
Tabla 1: Relación ente valores Z y α
Por otro lado, es importante entender la relación entre el valor Z y la precisión. Como habíamos visto en clases anteriores, mientras más alto es el valor de Z, el intervalo se hará más grande, pero la precisión de nuestra inferencia será inferior.
Veamos un ejemplo: tenemos una población de personas. Esta población tiene un parámetro, vamos a decir la edad. Tenemos un rango de edades de interés, digamos de 8.7 a 10.6 años. Como ya hemos visto en la distribución, si yo muestreo, tengo una probabilidad de que aparezcan sujetos con ciertas edades, a partir de lo cual se puede establecer el intervalo. Si yo defino este intervalo de 0 a 100 años, tengo gran amplitud, pero no tengo precisión; si tengo poca amplitud, tengo más precisión. La amplitud estará dada por los valores Z, como se puede ver en la tabla 1.
Figura 3: Media muestral e intervalo
Creación de autor Alfonso PradoFigura 3: Media muestral e intervalo
Creación de autor Alfonso PradoEntonces definimos el intervalo de confianza para media (µ) con una confianza de (1-α) al intervalo (8.7 a 10.6 años) obtenido para una realización muestral dada , tal que: P(8.7≤ µ≤10.6)=1- α.
El grado de confianza más habitual que se presenta es del 95%, pero no existe estandarización al respecto, y depende del estudio que se esté realizando.
Por tanto, un único estudio suele dar una estimación muestral imprecisa del valor total de la población en la que estamos interesados. Esta imprecisión se indica mediante la amplitud del intervalo de confianza: cuanto más amplio sea el intervalo, menor será la precisión. La amplitud depende esencialmente de tres factores:
- En primer lugar, el tamaño de la muestra: los tamaños de muestra más grandes darán resultados más precisos con intervalos de confianza más estrechos. En particular, los intervalos de confianza amplios enfatizan la falta de fiabilidad de las conclusiones basadas en muestras pequeñas.
- En segundo lugar, la variabilidad de la característica que se estudia: cuanto menos variable sea (entre sujetos, dentro de los sujetos, a partir del error de medición y de otras fuentes), más precisa será la estimación muestral y más estrecho el intervalo de confianza.
- En tercer lugar, el grado de confianza requerido: cuanto mayor sea la confianza, más amplio será el intervalo.
Intervalo de confianza clásico
Se basa en la distribución y se forma utilizando la media muestral como una estimación puntual, a la cual se adiciona y se resta un cierto valor para obtener los límites superior e inferior del intervalo de confianza, respectivamente.
Figura 5: Fórmula Intervalo de Confianza de la media poblacional
Figura 5: Fórmula Intervalo de Confianza de la media poblacional
- μ
- media poblacional
- σ
- desviación poblacional
- Z
- Nivel de confianza requerido (ver tabla 1)
- SEM
- Error estándar de la media
- X̅
- media muestral
- N
- número de observaciones
Muchas veces nos topamos con el problema de comparar dos medias poblacionales. Esto puede darse porque, ya sea tengamos dos muestras de la misma población y queramos saber si existen diferencias, pero más comúnmente es porque estamos tratando de encontrar diferencias entre variables que han sido sometidas a cierto tratamiento. En un experimento científico típico, nos interesan dos poblaciones (Casos y Control) y si existe una diferencia entre sus medias (µCasos - µControl). La siguiente figura clarifica este concepto.
Figura 6: Diferencias en la distribución Casos vs. Control
Figura 6: Diferencias en la distribución Casos vs. Control
Vale la pena recordar las siguiente fórmulas: aquí tenemos dos casos, que las varianzas sean iguales entre las dos muestras y que las varianzas sean diferentes.
Si las varianzas son iguales vamos a calcular una varianza ponderada en donde los pesos son los grados de libertad (n — 1) para cada muestra. Esta estimación ponderada se muestra en la siguiente figura:
Figura 7: Varianzas ponderadas
Figura 7: Varianzas ponderadas
El intervalo de confianza para la diferencia entre las dos medias poblacionales se halla entonces con una distribución t con grados de libertad n1 + n2 - 2.
Aprende más
Para conocer más sobre Varianzas Ponderadas, puedes leer el siguiente artículo ¡Accede aquí!
Figura 8: Intervalo de confianza para la diferencia entre medias poblacionales cuando las varianzas σ1 = σ2
Figura 8: Intervalo de confianza para la diferencia entre medias poblacionales cuando las varianzas σ1 = σ2
Por otro lado, cuando las varianzas son diferentes se puede aproximar los grados de libertad según la siguiente figura:
Figura 9: Grados de libertad ponderados cuando σ1 ≠ σ2
Figura 9: Grados de libertad ponderados cuando σ1 ≠ σ2
Y el intervalo de confianza para la diferencia entre medias poblacionales se calcularía de acuerdo con la siguiente figura:
Figuar 10: Intervalo de confianza para la diferencia entre medias
Figuar 10: Intervalo de confianza para la diferencia entre medias
Veamos un ejemplo con el dataset Traffic
Código
#Cargamos la data data <- traffic %>% filter(local_authority_id == 145) data$pesados <- data$all_motor_vehicles -data$cars_and_taxis data$pesados <- data$pesados/(365*24) #Cálculo media,desviación y grados de libertad n <- NROW(data) gl <- n-1 xmedio <- mean(data$pesados) desv <- sd(data$pesados) #Calculando el intervalo de confianza para 2 colas alfa=0.05 tstat_2lados <- qt(0.95 + alfa/2, df=gl ) ic_alto= xmedio + tstat_2lados* desv/sqrt(n) ic_alto ic_bajo= xmedio - tstat_2lados* desv/sqrt(n) ic_bajo #Intervalo de confianza de 1 solo lado #por ejemplo, queremos validar si el tráfico no excede de cierto valor tstat_lado_izquierdo <- qt(0.95 , df=gl ) ic_alto= xmedio + tstat_lado_izquierdo* desv/sqrt(n) ic_bajo= xmedio - tstat_lado_izquierdo* desv/sqrt(n) ic_bajo
Sin embargo, de lo mencionado, muchas veces es complicado realizar muestreos con gran cantidad de observaciones o repetir muestreos de la misma población. Aquí entra la técnica de “Bootstrap” o intervalos de confianza basados en “Bootstrap”.
Remuestreo mediante Bootstrap
Es un procedimiento de remuestreo que se puede utilizar para estimar la distribución de muestreo de casi cualquier estadístico, como la media, la mediana y los coeficientes de regresión. Estos estadísticos toman un nombre genérico: θ.
Una muestra bootstrap es una muestra de los datos con reemplazo; esto quiere decir que, cuando se realiza un remuestreo, el hecho de haber seleccionado un valor no impide que el mismo valor sea seleccionado en otro remuestreo.
En comparación con los intervalos de confianza clásicos basados en ecuaciones, un intervalo de confianza Bootstrap no asume ninguna distribución específica. En cambio, supone que la distribución observada en la muestra es una buena representación de la distribución de la población de la que se tomó la muestra. Por lo tanto, los intervalos de confianza Bootstrap se pueden utilizar como una alternativa si no cumplimos con los supuestos detrás de los intervalos de confianza clásicos o si no hay una ecuación para calcular dichos intervalos.
Bootstrap funciona de la siguiente forma: suponga que tenemos una muestra de 10 observaciones. Bootstrap procede a realizar el primer remuestreo mediante la selección de 10 observaciones aleatorias. Como resultado de este remuestreo, es posible que algunos valores se repitan, así como otros valores de la muestra original podrían no aparecer. Sobre esta muestra se procede a realizar el cálculo del estadístico requerido (media, desviación, etc.).
Por supuesto, la media de esta segunda muestra no tiene por qué coincidir con la media poblacional. Entonces, Bootstrap procede a hacer muestras adicionales, por ejemplo, 1000 muestras. Mientras mayor sea la cantidad de remuestreos realizados, más nos aproximaremos a la media poblacional.
La siguiente figura explica el concepto:
Figura 11: Proceso de remuestreo
Figura 11: Proceso de remuestreo
Luego sorteamos los valores θ1, θ2, θ3, ..., θM, y ubicamos los valores de los percentiles 2.5% y 97.5%, es decir, los cuantiles correspondientes al 5% y 95%.
Con esto, habremos obtenido el intervalo de confianza para la media poblacional.
Es importante entender que, dado que se basa en el remuestreo, la técnica de Bootstrap no es adecuada para muestras pequeñas.
¿Como podemos estar seguros de que el valor obtenido es el correcto?
Recuerde el teorema del límite central, que indica que, cuando la cantidad de observaciones es alta, la media muestral se aproximará a la media poblacional. En este caso, mediante bootstrap, estamos generando una cantidad alta de remuestreos.
Aprende más
Para conocer más sobre Bootstraping en investigación científica, puedes leer el siguiente artículo ¡Accede aquí!
-
8.1 Cuando sigma es desconocido
De la figura 5, notamos que esta fórmula incluye el estadístico de σ (desviación poblacional); sin embargo, el problema es que esta no siempre se conoce.
En este caso, volvemos a recurrir al teorema del límite central, sustituyendo el σ poblacional por σx (algunos autores lo llaman Sx), el cual se define como:
σx = s / √n
Por otro lado, el valor Z debe ser sustituido por el valor t, para muestras pequeñas tomando en cuenta el nivel de confianza y los aplicables en cada caso.
Veamos un ejemplo:
Código
#Una empresa de construcción está interesada en comprar un bosque para explotacion de la madera. Tiene 2 opciones , para el primero se hace una muestral con 10 árboles, estimando que produce 69.5 p.t (Un pie tablar es 1 pie de largo x 1 pie de ancho x 1 pulgada de grueso) con una desviación de 2.2 pt, en el segundo se hace una muestra de 15 árboles y se obtiene una media de 72.2 on una desviación de 4.5. #Con un intervalo de confianza del 95% queremos estimar si hay diferencias entre los dos bosques. #En ese caso lo que están pidiendo es el IC para la diferencia en las medias poblacionales xm1 <- 69.5 n1<- 10 sd1 <- 2.2 n2<- 15 xm2 <- 72.2 sd2 <- 4.5 #Dado que las desviaciones son diferentes calculamos los gl ponderados gl <- ((sd1^2/n1 + sd2^2/n2)^2) /( (sd1^2/(n1))^2/(n1-1) + (sd2^2/(n2))^2/(n2-1) ) gl <- round(gl,0) tprima <- qt(.95,gl) IC_medias_alto <- (xm1-xm2) + tprima* sqrt(sd1^2/n1 + sd2^2/n2) [1] -0.37 IC_medias_bajo <- (xm1-xm2) - tprima* sqrt(sd1^2/n1 + sd2^2/n2) [1] -5 #A un 95% de confianza podemos establecer que el bosque 1 tiene un producción inferior
-
8.2 Determinación del tamaño apropiado de la muestra.
El tamaño de la muestra juega un papel importante al determinar la probabilidad de error, así como en la precisión de la estimación. Una vez que se ha seleccionado el nivel de confianza, dos factores importantes influyen en el tamaño muestral:
- La varianza de la población (σx2)
- El tamaño del error tolerable que el investigador está dispuesto a aceptar
Mientras que el primer factor está más allá del control del investigador (no hay nada que se pueda hacer sobre la varianza de la población), sin embargo, sí es posible limitar el tamaño del error.
Podemos determinar el tamaño n de una muestra aleatoria que conduce a un error estándar de la media menor que un valor q deseado, suponiendo que conocemos la varianza (σx2).
Sabemos que:
- σx = σ / √n
Por lo tanto, requerimos que:
- σx / √n < q
De ahí, despejamos:
- n > (σx / q)2
Lo anterior puede reescribirse, de la siguiente forma:
Figura 12: Tamaño de la muestra requerido para un error dado
Figura 12: Tamaño de la muestra requerido para un error dado
Ejemplo:
Código
#Uno de los problemas que tienen los grandes hoteles en el mundo es estimar #la cantidad de habitaciones no utilizadas. Para esto deciden hacer una #encuesta por noche para ver cuantas habitaciones están libres, obviamente #la cantidad de habitaciones es muy grande, por lo que necesitan estimar el #tamaño de la muestra. El hotel piensa que puede aceptar un error de 50 #habitaciones. Se ha determinado que la desviación entre hoteles es de 165 #habitaciones. ¿Cuál es el tamaño de la muestra? muestra <- function(err){ Z=qnorm(0.005) Z s=165 #aplicamos la fórmula de la figura 12 n<- (z^2)*(s^2)/err^2 n } muestra(50) [1] 72.254 #Podemos hacer el siguiente gráfico para entender esta relación df <- data.frame(n=NULL, err=NULL) for (e in seq(from=10 , to=100 , by=1)) { dfline<- data.frame(n=muestra(e),err=e ) df <- rbind(df, dfline) } #View(df) ggplot(data=df, aes(x=n, y=err)) + geom_line()+ ggtitle("Error vs cantidad de muestras") #Notamos que en la medida que n crece la diferencia entre media muestral y poblacional disminuye
Figura 13: Relación entre el error (X̅̅ - μ ) y la cantidad de muestras
Creación de autor Alfonso PradoFigura 13: Relación entre el error (X̅̅ - μ ) y la cantidad de muestras
Creación de autor Alfonso PradoProfundiza más
Este recurso te ayudará a enfatizar sobre Intervalos de Confianza ¡Accede aquí!
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
Pruebas de hipótesis
ERRORES TIPO I Y TIPO II
En la teoría de decisiones, es el error TIPO i es el que se comete al rechazar la hipótesis nula H 0, cuando es verdadera.
El error tipo II, es el error que se comete al aceptar la hipótesis nula H 0 cuando es falsaREGIÓN DE ACEPTACIÓN y RECHAZO
Es la región formada por el conjunto de valores con los cuales decidimos aceptar la hipótesis nula, el área de rechazo conocida también como región crítica, está formada por el conjunto de valores con los cuales se rechaza la hipótesis nula
-
RETO 3: Aplicar técnicas de regresión lineal y múltiple para crear modelos candidatos que consideren un subset de las variables identificadas anteriormente como pertinentes
Objetivo: Crear modelos basados en distintos subsets de variables.
Indicaciones:
- Aplicar regresiones lineales múltiples o regresiones logísticas
- Analizar resultados iniciales de residuos
- Analizar incertidumbre de coeficientes
- Validación de los modelos mediante técnicas de validación cruzada:
- Uso de particiones nfold
- Obtener métricas de rendimiento:
- R², R² ajustado
- Error estándar residual
Actividades
- Aplicar técnicas de regresión lineal
- Aplicar técnicas de regresión logística
- Analizar el comportamiento de los modelos en base a predicción
-
Introducción
En esta clase, vamos a revisar dos temas que son fundamentales en el análisis estadístico. El primero se refiere al concepto de la inferencia. Una vez que hemos comprendido los conceptos de parámetros, estadísticos y distribuciones, nos preguntamos qué inferencias podemos deducir respecto a parámetros de una población en particular o, visto de otra manera, deducir si una observación pertenece o no a nuestra población.
El segundo tema que revisaremos está relacionado con el diseño de experimentos. Como veremos, las inferencias se basarán en las muestras recogidas; sin embargo, si estas no se llevaron a cabo mediante un procedimiento estructurado y metodológico, podrían llevarnos a conclusiones que son erróneas. Por lo tanto, es fundamental para el investigador conocer estas técnicas y aplicarlas correctamente.
-
Prueba de hipótesis
Analizar información contextual sobre hábitat, infraestructura y movilidad, mediante técnicas estadísticas descriptivas e inferenciales, para la adecuada toma de decisiones
Reto # 4
9. Pruebas de hipótesis
Una hipótesis es una conjetura sobre la forma en que funciona un proceso. Es una explicación tentativa de algún proceso. Antes de estudiar y medir a los individuos en una muestra, un investigador formula hipótesis que predicen cómo deberían verse los datos. En general, una hipótesis predice que los datos no mostrarán nada nuevo o interesante. La llamada hipótesis nula (abreviada H0) sostiene que, si los datos se desvían de la conjetura de alguna manera, esa desviación se debe estrictamente al azar.
De acuerdo con Schmuller (2022) “La otra hipótesis, la hipótesis alternativa (abreviada H1 o Ha), explica las cosas de manera diferente. Según la hipótesis alternativa, los datos muestran algo diferente”.
Para hacer una prueba de hipótesis trabajaremos en base a una o más muestras de las cuales obtendremos las evidencias para indicar si H0 está en lo correcto o no.
Diferencia estadísticamente Insignificante
Es la diferencia entre el valor de la media poblacional bajo hipótesis y el valor de la media muestral que es lo suficientemente pequeña para atribuirla a un error de muestreo, y, por lo tanto, no cuenta como evidencia en contra de H0.
-
9.1 Estimación para muestras independientes
Hay cinco pasos que debemos completar para probar una hipótesis:
a. Enunciar la hipótesis nula y la hipótesis alternativa.
b. Determinar el nivel de significancia.
c. Calcular el estadístico de la prueba.
d. Determinar el valor o los valores críticos.
e. Enunciar la decisión o el hallazgo.
Hipótesis nula e hipótesis alternativa
Toda prueba de hipótesis debe incluir una hipótesis nula y una hipótesis alternativa. La hipótesis nula, denotada por H0, representa el statu quo e implica afirmar la creencia de que la media de la población es ≤, = o ≥ un valor específico. Se cree que la hipótesis nula es verdadera a menos que exista evidencia abrumadora de lo contrario. La hipótesis nula es la que debe rechazarse o no rechazarse.
La hipótesis alternativa, denotada por H1, representa lo opuesto a la hipótesis nula y es verdadera si se determina que la hipótesis nula es falsa. La hipótesis alternativa siempre establece que la media de la población es <, ≠ o > un valor específico.
Recuerde que el propósito de la prueba de hipótesis es verificar la validez de una afirmación sobre una población, basada en una sola muestra. Como nos basamos en una muestra, nos exponemos al riesgo de que nuestras conclusiones sobre la población puedan ser erróneas debido a un error de muestreo. Aquí se nos pueden presentar dos tipos de errores:
Si rechazamos H0 cuando en realidad es cierto, se conoce como error de tipo I. La probabilidad de cometer un error de tipo I se conoce como α, el nivel de significancia.
Por el contrario, cuando no rechazamos H0 cuando en realidad es falsa, se conoce como error de tipo II. La probabilidad de cometer un error de tipo II se conoce como β.
Calcular el estadístico de la pruebaLa fórmula para la prueba de hipótesis está muy relacionada con el estadístico t. En la medida que el valor t calculado aumente, mayor será la evidencia en contra de H0. Sin embargo, si el valor t es menor que el valor del intervalo de confianza utilizado solo indicará que no hay evidencias en contra de H0 no necesariamente que H0 está en lo correcto.
Figura 1Fórmula para la prueba de hipótesis
Nombre_de_la_figura Nombre_de_la_figura
El valor crítico divide el área bajo la curva de distribución normal en dos regiones: el área donde no rechazamos H0 y el área o áreas donde rechazamos H0. Obtenemos el valor crítico mediante la función qt(), y esta va a diferir si estamos haciendo una prueba de dos colas o de una cola.
Prueba de dos colasUtilizaremos esta prueba cuando queremos saber si nuestra muestra proviene de una población en particular dado por una media μ y desviación σ.
Por ejemplo, tengo una muestra y asumo que esta viene de una población con media de 7,5. Se desea saber si es verdad o no.
Asumimos que si X̅ (la media de la muestra) se halla dentro del 95% (1 - α), HO es verdadero, porque solo hay un 2.5% que puede ser atribuido a diferencia insignificante. Por lo tanto, si el estadístico calculado se halla dentro del intervalo de -1.96 y +1.96, HO sigue manteniéndose. Caso contrario, si el estadístico es mayor que 1.96 o menor que -1.96, parece poco probable que la media esté centrada en el valor µ establecido. Por tanto, H1 podría ser verdadero.
Figura 2Áreas de rechazo para prueba de dos colas
Creación del autor: Alfonso Prado
Nombre_de_la_figura Nombre_de_la_figura
Es importante mencionar que si el estadístico calculado se hallara dentro de la región de no rechazo, debe interpretarse como que no existe evidencia (datos) que confirmen que H0 está equivocado; es decir, podría ser que otra muestra presente un resultado distinto.
Veamos un ejemplo:
#Usted está interesado en cambiar su carro, y considera que el cambio le costará unos 25.000 US$, realiza una pequeña investigación de mercado en 40 distribuidores y obtiene una media de 27312, con una desviación de 8012 US$. A un nivel de significancia del 10% pruebe si su hipótesis es verdadera.
Nombre_de_la_figura
Gráfico obtenido del problema
Creación de autor Alfonso Prado
Nombre_de_la_figura
En este caso rechazamos la hipótesis H0 debido a que el Z calculado se halla más distante que el Zcritico
Prueba de una colaNo siempre el problema trata de encontrar si el estadístico está entre las dos colas. Hay veces que el enunciado indica interés en validar solo uno de los lados. Por ejemplo, una empresa puede estar interesada en validar si sus ventas pueden caer por debajo de cierto valor; en otras palabras, las ventas altas no son de interés.
Si tenemos una prueba de una cola, tendremos solo un área de rechazo, no dos. Si es una prueba de cola derecha, entonces el área de rechazo estará en la cola derecha; y si tenemos una prueba de cola izquierda, el área de rechazo estará en la cola izquierda. Veamos cómo obtener el valor crítico para cada una:
Si elegimos α = 0,01 y utilizamos una prueba de cola derecha, entonces necesitaremos determinar el valor Z crítico correspondiente. Debido a que se trata de una prueba de una cola, toda esta área debe estar en una región de rechazo en el lado derecho de la distribución.
Veamos un ejemplo:
Descripción del Problema
El gerente del hotel Embassy Suites Atlanta reportó que el número promedio de habitaciones alquiladas por noche es de por lo menos 212. Es decir, \( \mu \geq 212 \). Sin embargo, se cree que esta cifra puede estar algo sobrestimada. Una muestra de 150 noches produce una media de 201.3 habitaciones y una desviación estándar de 45.5 habitaciones. Se desea comprobar, al 1% de significancia, si la hipótesis es correcta.
Datos
- \( \mu = 212 \)
- \( n = 150 \)
- \( \bar{x} = 201.3 \)
- \( \alpha = 0.01 \)
- \( sd = 45.5 \)
Cálculo del Estadístico Z
\( Z_{\text{calc}} = \frac{\bar{x} - \mu}{\frac{sd}{\sqrt{n}}} \)
Fórmula para calcular el estadístico Z usando media muestral, media poblacional, desviación estándar y tamaño de muestra. Valor Crítico Z
\( Z_{\text{crítico}} = qnorm(0.01) \)
Valor crítico para una cola izquierda con \(\alpha = 0.01\). Visualización en R
serie4 <- rnorm(1000, mean=0, sd=1) df4 <- data.frame(X=serie4, Y=dnorm(serie4, mean=0, sd=1)) ggplot(data=df4, aes(x=X, y=Y)) + geom_line() + geom_vline(xintercept=Zcalc, color="BLUE") + geom_ribbon(data=subset(df4, X > -3 & X < Zcritico), aes(ymax=Y), ymin=0, fill="RED")
Código en R para visualizar el valor Z obtenido respecto al valor crítico en una curva normal estándar. Como muestra la siguiente figura, necesitamos encontrar el valor Z que corresponde al área 1 – α.
figura 4Solución al problema
Con un 99% de confianza podemos estar seguros de que la estimación esta sobrestimada
Creación de autor Alfonso Prado
Nombre_de_la_figura Nombre_de_la_figura
Por otro lado, si el enunciado del problema mencionara que es una prueba de cola derecha, el área de rechazo estará a la derecha y el valor crítico será 2,33 en lugar de -2,33.
Funciones Programáticas t.test
La solución de las pruebas de hipótesis vistas anteriormente podríamos considerarlas como soluciones analíticas; es decir, el analista debe calcular correctamente los valores críticos y tomar una decisión. Las funciones programáticas nos permiten hacer básicamente lo mismo, aunque con ciertas particularidades.
Existen 3 diferentes casos de uso de la función t.test.
Caso 1: Cuando queremos saber si nuestra muestra proviene de una población en particular. En este caso, indicaremos el vector x que será comparado contra el valor mu.
Caso 2: Un dataset con datos dependientes. Por ejemplo, cuando tengo un dataset con valores antes y después de un tratamiento. Requiere el argumento “paired= TRUE”
Caso 3: Dos dataset con datos independientes. Por ejemplo, tengo grupos de hombres y mujeres y queremos determinar si provienen de la misma población. Requiere el argumento “paired= FALSE”
La función t.test devuelve un objeto con 2 propiedades: t-value y p-value. Tvalue es la medida de la evidencia en contra de H0, mientras más grande es el valor desecharemos la hipótesis H0. P-value es simplemente una medida de la probabilidad de que los datos hayan ocurrido por casualidad, suponiendo que la hipótesis H0 sea cierta. Su cálculo depende del escenario planteado. Para el caso de que H0 haya sido rechazado, 1-pvalue será la probabilidad que la hipótesis H1 sea cierta.
Figura 5Sintaxis de la función t.test
Nombre_de_la_figura Nombre_de_la_figura
Donde:
x, y son las muestras que considerar
mu es la media poblacional estimada
alternative indica cuál es la hipótesis alternativa
conf.level indica el intervalo de confianza para el cálculo
Función t.test
Describe en detalle el uso de t.test ¡Accede aquí!
Para que t.test funcione correctamente, es necesario que se cumplan 2 condiciones: La distribución debe ser normal y la varianza en el caso de comparación de 2 dataset debe ser similar. Validación de estas premisas veremos en la siguiente clase
-
9.2 Estimación para muestras pareadas
Se trata de una prueba de un dataset con datos dependientes. Por ejemplo, cuando tengo una muestra que indica el efecto de un tratamiento antes y después. En este caso, una columna contiene la data del paciente antes y otra columna después del tratamiento. Esto lo llamaremos muestras apareadas, y usaremos el argumento “paired = TRUE.” En otras palabras, tratamos de encontrar si existe una diferencia entre dichas columnas.
Veamos un ejemplo:
Diez individuos participaron de programa para perder peso corporal por medio de una dieta. Los voluntarios fueron pesados antes y después de haber participado del programa y los datos en libras aparecen abajo. ¿Hay evidencia que soporte la afirmación de la dieta disminuye el peso medio de los participantes? Usar nivel de #significancia del 5%.
Datos
- Antes: 195, 213, 247, 201, 187, 210, 215, 246, 294, 310
- Después: 187, 195, 221, 190, 175, 197, 199, 221, 278, 285
- Tipo de prueba: t de Student para muestras pareadas
- Hipótesis alternativa: media de las diferencias \( > 0 \)
Prueba t pareada
\( t = \frac{\bar{d}}{s_d / \sqrt{n}} \)
Donde \( \bar{d} \) es la media de las diferencias y \( s_d \) es la desviación estándar de las diferencias. Resultados de la prueba
- \( t = 8.3843 \)
- \( gl = 9 \)
- \( p\text{-valor} = 7.593 \times 10^{-6} \)
- Intervalo de confianza al 95%: \( [13.2832, \infty) \)
- Diferencia media estimada: 17
Conclusión
Se obtuvo un valor de \( t = 8.3 \), es decir, el estadístico calculado está 8 desviaciones estándar alejado de la media bajo la hipótesis nula. Dado que el valor p es muy bajo, se concluye que la dieta tuvo un efecto significativo en la reducción de peso.
El resultado se puede ver en la siguiente figura:
Figura 6: Efecto de la dieta en participantes Creación de autor Alfonso Prado Nombre_de_la_figura
-
9.3 Estimación de la potencia de la prueba
Una vez realizado el experimento recuperamos la data y empezamos a inferir si existen diferencias entre los grupos. Sin embargo, vamos a entender que no todas las pruebas tienen igual potencia para inferir los resultados. Más aún, determinados tipos de experimentos van a requerir que se vea una clara distinción sobre la afectación del tratamiento lo cual podría requerir un mayor número de observaciones para lograr el mismo nivel de potencia. Para esto recurrimos a la función de potencia pwr.t.test() del paquete pwr.
La prueba pwr.t.test sirve para establecer los valores de n,d, sig.level, o pwr , esto se obtiene asignando en NULL el argumento que se desea encontrar de acuerdo con los otros argumentos que deben ser no nulos.
Figura 7: Uso de la función pwr.t.test. FFuente: https://www.rdocumentation.org/packages/pwr/versions/1.3-0/topics/pwr.t.test Figura 7: Uso de la función pwr.t.test. Fuente:
Donde:
n: Número de observaciones (por muestra)
d =Tamaño del efecto (d de Cohen):
sig.level: Nivel de significancia (probabilidad de error tipo l)
power: Potencia de la prueba (1 - probabilidad de error tipo ll)
Type: Tipo de prueba t: una, dos muestras o muestras pareadas
Alternative: una cadena de caracteres que especifica la hipótesis alternativa debe ser una de "mayor" o "menor"
Paquete pwr
Describe en detalle las funciones ¡Accede aquí!
De todos los argumentos, el tamaño del efecto requiere una explicación adicional: El tamaño del efecto puede decirnos qué tan grande es realmente esta diferencia ente los grupos y se calcula mediante la d de Cohen que retorna la diferencia en términos de desviaciones estándar.
De acuerdo con Teck K, (2022), dado que la potencia se define como (1 - probabilidad de error tipo ll) nos indicaría la probabilidad de que la prueba t rechace la hipótesis nula de igualdad de dos medias, asumiendo que la hipótesis nula es falsa y su valor típico es 0.8.
Note que la función no contiene ningún argumento sobre un dataset en especial, la prueba nos da la potencia que se obtendría bajo determinadas condiciones de número de observaciones, tipo de test y tipo de alternativa.
Veamos algunos ejemplos
Potencia para una muestra
Se calcula la potencia de una prueba t para una muestra de 60 observaciones, dos colas, con un tamaño del efecto \( d = 0.2 \) y un nivel de significancia de \( \alpha = 0.10 \).
\( \text{power} = 0.456 \)
Potencia para muestras pareadas
Se calcula la potencia de una prueba t pareada con:
\( d = \frac{8}{16 \cdot \sqrt{2(1 - 0.6)}} \)
Tamaño de muestra \( n = 40 \), \( \alpha = 0.05 \), prueba de dos colas.
\( \text{power} = 0.932 \)
Potencia para muestras independientes
Se calcula la potencia con:
\( d = \frac{2}{2.8} \)
Tamaño de muestra \( n = 30 \), \( \alpha = 0.05 \), prueba de dos colas.
\( \text{power} = 0.567 \)
Tamaño muestral requerido para \( d = 0.3 \)
Para detectar un tamaño del efecto \( d = 0.3 \) con \( \text{power} = 0.75 \) y \( \alpha = 0.05 \) en una prueba de una cola:
\( n = 120 \)
Tamaño muestral requerido para \( d = 0.1 \)
Para detectar un tamaño del efecto pequeño \( d = 0.1 \) con \( \text{power} = 0.75 \) y \( \alpha = 0.05 \) en una prueba de una cola:
\( n = 1077 \)
Explica la relación entre la potencia, el tamaño del efecto (d) y el tamaño de la muestra requerida
Figura 8 Explica la relación entre la potencia, el tamaño del efecto (d) y el tamaño de la muestra requerida Nombre_de_la_figura
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
En la clase anterior, habíamos visto los distintos usos de la prueba t.test. Habíamos mencionado, entonces, que esta prueba está relacionada con la distribución t y que existían algunos requisitos para que funcione adecuadamente. Específicamente, el primer requisito es que la muestra sobre la que estamos trabajando tenga una distribución normal o cuasi-normal. Por otro lado, indicamos que cuando t.test se usa para comparar si dos muestras, denotadas como X/Y, provienen de la misma población, los datasets deben tener varianzas iguales o al menos similares. En la presente clase, presentaremos algunas funciones que nos sirven para validar estos supuestos.
Distribución gamma
La es una distribución de probabilidad continua que se utiliza para modelar el tiempo de espera hasta que ocurran un número específico de eventos. Es una distribución de dos parámetros, lo que significa que se requiere dos parámetros para definir completamente la distribución. Los dos parámetros son el parámetro de forma, denotado por alfa (α) y el parámetro de escala, denotado por beta (β).El parámetro de forma controla la forma de la distribución, mientras que el parámetro de escala controla la propagación de la distribución.
-
Condiciones para pruebas de hipótesisClase 10:
Analizar información contextual sobre hábitat, infraestructura y movilidad, mediante técnicas estadísticas descriptivas e inferenciales, para la adecuada toma de decisiones
Reto # 410. Condiciones para pruebas de hipótesis Para que t.test funcione correctamente, es necesario que se cumplan dos condiciones: la distribución debe ser normal y la varianza, en el caso de comparación de dos datasets, debe ser similar.
-
10.1 Prueba de Shapiro-Wilk
La prueba de normalidad de Shapiro-Wilk es una de las tres pruebas generales de normalidad diseñadas para detectar las desviaciones de la normalidad. El test de Shapiro-Wilk plantea la hipótesis nula de que la muestra proviene de una distribución normal. Para la prueba, elegimos un nivel de significancia; la prueba permite escoger el nivel de significancia deseado, siendo los más comunes 0.05 o 0.01, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.
H0 = La distribución es normal
H1 = La distribución no es normal
o más formalmente:
Hipótesis
\( H_0: X \sim \mathcal{N}(\mu, \sigma^2) \)
\( H_1: X \not\sim \mathcal{N}(\mu, \sigma^2) \)Hipótesis nula y alternativa para verificar normalidad Esta prueba retorna un p-value. El valor p es el nivel más bajo de significancia al cual se puede rechazar la hipótesis nula; por lo tanto, se garantiza que la distribución es normal si el p-value es mucho mayor que 0.05.
Esta prueba también realiza una prueba no paramétrica medida por el estadístico W. Este debe tener un valor aproximadamente igual a 1 para muestras de distribuciones normales. Los valores grandes indican no normalidad; más específicamente, el valor W debe compararse con un W-crítico, mismo que varía de acuerdo con el tamaño de la muestra y el nivel de confianza. Valores referenciales figuran en la siguiente tabla.
Nombre_de_la_figura
Tabla 1: Valores del W-critico en función de la cantidad de observaciones Para el cálculo del Wcritico, no podemos utilizar las funciones qnorm o qt ,dado que no podemos asegurar su distribución . En su lugar, usaremos una distribución gamma. Esta distribución de la familia de probabilidad continua contiene dos parámetros: parámetro de forma K y de escala θ. El siguiente código ayuda a encontrar el Wcrítico para cualquier combinación de número de observaciones y nivel de confianza.
Cálculo de W crítico usando simulación
Definición de funciones en R:
tmpf <- function(gshape=20, n=50) {<br> shapiro.test(qgamma((1:n)/(n+1), scale=1, shape=gshape))<br> }
find.shape <- function(n, alpha) {<br> uniroot(function(x) tmpf(x, n)$p.value - alpha, interval=c(0.01, 100))$root<br> }
find.W <- function(n, alpha) {<br> s <- find.shape(n, alpha)<br> tmpf(s, n=n)$statistic<br> }
Cálculos realizados:
find.W(14, 0.05)
→ 0.8753995find.W(14, 0.01)
→ 0.8238614
En resumen, el valor crítico de \( W \) para 14 observaciones y un nivel de significancia \( \alpha = 0.05 \) es:
\[ W_{crítico}(n=14, \alpha=0.05) = 0.8753995 \] Y para \( \alpha = 0.01 \):
\[ W_{crítico}(n=14, \alpha=0.01) = 0.8238614 \]Cálculo del valor crítico de W en la prueba de Shapiro-Wilk mediante simulación de distribuciones gamma. Aprende más
Distribución gamma: Describe el uso de las funciones gamma ¡Accede aquí!
Veamos un ejemplo teórico
Pruebas de normalidad con Shapiro-Wilk
1. Distribución normal simulada:
vnormal <- rnorm(100, mean = 5, sd = 3)
shapiro.test(vnormal)
Resultado:
Shapiro-Wilk normality test
data: rnorm(100, mean = 5, sd = 3)
\( W = 1 \), p-value = 0.2
Dado que el valor p es mayor que 0.05, se concluye que la distribución es normal.
2. Distribución uniforme:
runif <- runif(100, min = 2, max = 4)
shapiro.test(vrunif)
shapiro.test(runif(100, min = 2, max = 4))
Resultado:
Shapiro-Wilk normality test
data: runif(100, min = 2, max = 4)
\( W = 1 \), p-value = 0.0009
Dado que p-value < 0.05, se concluye que no sigue una distribución normal.
3. Distribución t con 20 grados de libertad:
vt <- rt(100, 20)
shapiro.test(vt)
Resultado:
Shapiro-Wilk normality test
data: vt
\( W = 1 \), p-value = 0.04
Como el p-value está por debajo del límite de 0.05, se concluye que no sigue una distribución normal.Evaluación de normalidad para distintas distribuciones mediante la prueba de Shapiro-Wilk. Veamos un ejemplo con el dataset “housing”, queremos entender si la distribución de los pies cuadrados de las construcciones sigue una distribución normal
Análisis de Normalidad del Dataset de Vivienda
read.csv("http://www.jaredlander.com/data/housing.csv", header=TRUE, sep=",")
housing <- na.omit(housing)
Entendamos el dataset:
names(housing)
Nombres largos o con puntos es mejor cambiarlos:
nombres <- names(housing)
names(housing) <- c("sector", "class", "TUnits", "Year", "GSqFt",
"Est_GIncome", "GIncomexSqFt", "Est_Expense",
"ExpSqFt", "NetIncome",
"FullValue", "valxSqFt", "Boro")
Nos interesa saber si, de todo el dataset, el tamaño de las áreas sigue una distribución normal:
shapiro.test(housing$GSqFt)
Shapiro-Wilk normality test
data: housing$GSqFt
W = 0.4567, p-value < 2.2e-16
Con un p-value menor que 0.05 y un W menor que 1, concluimos que no sigue distribución normal.Prueba de normalidad de Shapiro-Wilk aplicada al tamaño de las áreas (GSqFt). Si un conjunto de datos no se distribuye normalmente, podemos realizar una de las siguientes transformaciones para normalizarlo:
- 1. Transformación logarítmica: transforma el vector a log(vector).
- 2. Transformación de raíz cuadrada: transforma el vector y a √vector
Al realizar estas transformaciones, la variable de respuesta suele acercarse a una distribución normal.
-
10.2 Prueba de Ansari-Bradley
Esta prueba se usa para probar la hipótesis nula (H0) de que las varianzas de dos datasets, correspondientes a dos muestras, son idénticas, mientras que la hipótesis alternativa (H1) indica que difieren por dispersión (algunos autores lo llaman escala). La prueba de Ansari también retorna un p-value que debe ser mucho mayor que 0.05 para asegurar que las varianzas son similares.
Figura 1: Función programática Ansari Figura 1: Función programática Ansari
Veamos un ejemplo teórico
Ansari-Bradley Test
1. Generación de vectores:
V1 <- rnorm(100)
V2 <- rnorm(100, 0, 2)
2. Prueba de igualdad de escalas:
ansari.test(V1, V2)
Resultado:
Ansari-Bradley test
data: rnorm(100) and rnorm(100, 0, 2)
AB = 5872, p-value = 5.892e-05
alternative hypothesis: true ratio of scales is not equal to 1
Intervalo de confianza al 95%:
\[ [0.4035154,\ 0.7085887] \]
Estimación de la razón de escalas:
\[ \text{ratio of scales} = 0.5356437 \]
Dado que el valor p es menor que 0.05, se concluye que las varianzas son diferentes.Resultado de la prueba Ansari-Bradley para detectar diferencias en varianza entre dos muestras independientes. De la figura 1 se puede ver claramente que la función solo permite comparar dos datasets; sin embargo, comúnmente nos topamos con situaciones en las cuales tenemos una variable de tipo factor con múltiples niveles. En estos casos, necesitamos garantizar que los valores de cada uno de estos niveles tengan una varianza similar. La pregunta que nos hacemos es: ¿Cómo puedo comparar múltiples datasets? La respuesta es ANOVA.
-
10.3 Pruebas de anova de 1 vía
Estadístico Fratio
Para entender cómo funciona anova, necesitamos conocer previamente sobre la distribución F. De acuerdo con Berman H,() “la distribución F es la distribución de probabilidad asociada con el estadístico F”. De la misma manera que la distribución Student T está relacionada con el estadístico t, la distribución F está asociada con el estadístico F (o Fratio).
El estadístico Fratio sirve para comparar varianzas de dos poblaciones; la comparación se hace en base a la razón (división) de las mismas. Sin embargo, debemos entender que los estadísticos de las poblaciones generalmente no son conocidos. Cuando se comparan las varianzas de dos poblaciones, se toma una muestra de cada población. Las varianzas de la muestra sirven como estimaciones de sus varianzas poblacionales respectivas. Una distribución F se forma por la razón de estas dos varianzas muestrales.
Debemos conocer también que existen 2 tipos de pruebas en las que usamos este estadístico. La prueba conocida como anova de 1 vía (aov), tiene por interés contestar la siguiente pregunta: "¿La varianza entre las medias de dos poblaciones es significativamente diferente?"
Aprende más
Análisis de variaza usando anova: Describe los casos de usos y resultados ¡Accede aquí!
La distribución F tiene la particularidad de que la relación de las varianzas se espera que sea mayor que 1, por lo tanto, al hacer la relación, colocaremos la varianza mayor en el numerador y la varianza menor en el denominador.
Para calcular el estadístico F, seleccionamos una muestra aleatoria de tamaño n1 de la población normal 1 bajo análisis y que tenga una desviación estándar igual a S1.
Luego seleccionamos otra muestra aleatoria independiente de tamaño n2 de otra población normal, que tenga una desviación estándar igual a S2. Quedando su fórmula como se menciona en la siguiente figura
Figura 2 Figura 2
Distribución F
La distribución de todos los valores posibles del estadístico f se denomina distribución F, siendo v1 = n1 - 1 y v2 = n2 – 1 = a grados de libertad de los dos sets bajo comparación.
La curva de la distribución F depende de los grados de libertad, v1 y v2. Al describir una distribución F, el número de grados de libertad asociados con la desviación estándar en el numerador del estadístico f siempre se indica primero. Por lo tanto, f(5, 10) se referiría a una distribución F con v1 = 5 y v2 = 10 grados de libertad; mientras que f(10, 20) se referiría a una distribución F con v1 = 9 y v2 = 5 grados de libertad. Nótese que la curva representada por f(5, 10) sería diferente de la curva representada por f(10, 20).
Figura 3
Dos ejemplos de distribución F el primero con 10 y 20 grados de libertad y el segundo con 5 y 10 grados de libertad
Figura 3: Dos ejemplos de distribución F el primero con 10 y 20 grados de libertad y el segundo con 5 y 10 grados de libertad Creación de autor: Alfonso Prado Figura 3: Dos ejemplos de distribución F el primero con 10 y 20 grados de libertad y el segundo con 5 y 10 grados de libertad Creación de autor: Alfonso Prado
Al igual que cuando hacemos una prueba de hipótesis tenemos una área de rechazo de H0 y un área de aceptación de H0, en la distribución F vamos a tener una área de rechazo y una de no rechazo. Sin embargo, debido a que la razón F está restringida para exceder siempre de 1 , resulta que solo tienen una zona de rechazo en la cola derecha. Por lo tanto, únicamente la mitad del área bajo la distribución es accesible como zona de rechazo y es necesario dividir entre 2 el valor de α seleccionado e identificar una zona de rechazo única en la cola derecha.
La delimitación de estas áreas estará dada por el intervalo de confianza con el que se desea trabajar, así por los grados de libertad del numerador y denominador de los sets bajo comparación. Para encontrar este valor, se utiliza la función qf() cuya sintaxis se muestra en la figura xx
En los siguientes ejemplos, puede observarse cómo el valor correspondiente a alfa 0.05 y 0.01 varía con respecto a los grados de libertad del numerador y denominador.
Valores críticos de la distribución F
Los siguientes resultados corresponden a los valores críticos de la distribución F para distintos grados de libertad y niveles de significancia.
qf(0.95, 5, 10)
\[ F_{0.95,\ 5,\ 10} = 3.33 \]
qf(0.95, 10, 5)
\[ F_{0.95,\ 10,\ 5} = 4.74 \]
qf(0.99, 5, 10)
\[ F_{0.99,\ 5,\ 10} = 5.64 \]
qf(0.99, 10, 5)
\[ F_{0.99,\ 10,\ 5} = 10.1 \]Valores críticos obtenidos con la función qf()
para la distribución F de Fisher-Snedecor.Figura 4
Figura 4: Sintaxis de la función qf Figura 4: Sintaxis de la función qf
El valor retornado por la función qf() limitaría las zonas de rechazo como se muestra a continuación.
Figura 5
Figura 5: Zona de rechazo de una distribución F Creación de autor Alfonso Prado Figura 5: Zona de rechazo de una distribución F Creación de autor Alfonso Prado
Funcionamiento de aov
La técnica de análisis de varianza (aov), también conocida como análisis factorial, constituye la herramienta básica para el estudio del efecto de uno o más factores (cada uno con dos o más niveles) sobre la media de una variable continua. Es, por lo tanto, la prueba estadística adecuada cuando se desea comparar las medias de dos o más grupos. Esta técnica también puede generalizarse para estudiar los posibles efectos de los factores sobre la varianza de una variable.
aov tiene las siguientes hipótesis y supuestos:
- • H0: La media de todos los grupos considerados son iguales.
- • H1: La media de todos los grupos no son todas iguales.
- • En realidad, no indica cuál(es) son diferentes o cuál(es) son iguales, lo único que indica es que no son todos iguales.
- • Pruebas adicionales son necesarias para establecer cuáles son iguales o no.
- • Asume que los dataset son distribuidos normalmente y que sus desviaciones estándar son la similares.
- • Los datos atípicamente extremos pueden invalidar por completo las conclusiones de un ANOVA. Si se observan residuos extremos hay que estudiar con detalle a que observaciones pertenecen, siendo aconsejable recalcular el ANOVA sin ellas y comparar los resultados obtenidos.
Como indicamos anteriormente, existen 2 funciones ANOVA que sirven para propósitos diferentes:
- • aov es una variante donde los grupos se hallan en un mismo dataset . A veces llamado “1-way-ANOVA” los grupos se forman por los niveles de una variable tipo factor
- • anova es similar, pero está diseñada para permitir comparar la varianza de dos modelos predictivos (Veremos esto en la próxima clase)
Figura 6
Figura 6: Sintaxis de la función aov Figura 6: Sintaxis de la función aov
De acuerdo con Rodrigo (2017) “El estadístico estudiado en el ANOVA, conocido como 𝐹𝑟𝑎𝑡𝑖𝑜, es la ratio entre la varianza de las medias de los grupos y el promedio de la varianza dentro de los grupos”. Sin embargo, como en todas las pruebas, los estadísticos per-se no indica mayor cosa, los estadísticos deben ser comparados con un valor crítico que marca la frontera entre zonas de rechazo y zona de no rechazo de H0.
En el caso de aov() el estadístico F debe ser comparado con un F-critico (obtenido de una distribución F) que depende de algunos parámetros (Intervalo de confianza, grados de libertad del numerador , grados de libertad del denominador).
Ejemplo con el dataset de construcciones
ANOVA: Varianza de precios por tipo de construcción
El dataset contiene una variable categórica llamada
class
que define el tipo de construcción. Queremos determinar si la varianza en precios (valxSqFt
) es igual para cada tipo de construcción.levels(housing$class)
[1] "R2-CONDOMINIUM" "R4-CONDOMINIUM" "R9-CONDOMINIUM" "RR-CONDOMINIUM"aov_class <- aov(valxSqFt ~ class, data = housing) summary(aov_class)
Df Sum Sq Mean Sq F value Pr(>F) class 3 1243078 414359 97.3 <2e-16 *** Residuals 2526 10756882 4258 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Se obtiene el valor crítico F para los grados de libertad mencionados:
qf(0.95, 3, 2526)
\[ F_{0.95,\ 3,\ 2526} = 2.608426 \]
El estadístico F reportado por ANOVA es muy superior al valor crítico, lo que indica que existen diferencias significativas en las varianzas de los grupos de tipos de construcción.
ANOVA: Varianza de precios por vecindario
Se realiza un segundo análisis respecto a los vecindarios registrados en la variable
Boro
.levels(housing$Boro)
[1] "Bronx" "Brooklyn" "Manhattan" "Queens" "Staten Island"aov_boro <- aov(valxSqFt ~ Boro, data = housing) summary(aov_boro)
qf(0.95, 4, 2525)
\[ F_{0.95,\ 4,\ 2525} = 2.375452 \]El estadístico F reportado por ANOVA también es muy superior al valor crítico, lo que sugiere que existen diferencias significativas en las varianzas de los precios entre los distintos vecindarios.
Análisis de varianza utilizando el modelo aov()
en R. -
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
En la clase 1 explicamos que, de todas las variables contenidas en un dataset, podríamos distinguir entre aquellas que son predictoras y las que son consideradas variables de respuesta. Esto lo pudimos establecer a través de la función de correlación. En la clase 3 revisamos que, para asegurar esta relación, el levantamiento de datos debía seguir un proceso formal con el fin de garantizar que la data no estuviera sesgada. Por otro lado, en la clase 2, revisamos los conceptos de distribución de probabilidades de los valores de una variable.
Una vez que descubrimos las relaciones entre variables, nos preguntamos si podemos establecer una ecuación que modele la relación entre dichas variables. Si pudiéramos encontrar esta ecuación (que en adelante llamaremos modelo), podríamos, en primer lugar, validar que se ajusta a las observaciones y, en segundo lugar, predecir nuevos valores de las variables de respuesta dentro de determinados intervalos de confianza.
ANALISIS DE RESIDUOS
Conocido también como límites de confianza. Es un rango de valores en el cual se encontraría el valor del parámetro, con una probabilidad determinada.
INTERVALO DE CONFIANZA
Conocido también como límites de confianza. Es un rango de valores en el cual se encontraría el valor del parámetro, con una probabilidad determinada.
-
Modelos de regresión
1. Modelos de regresión lineal
Un modelo no es más que la representación del funcionamiento de un proceso mediante una o más ecuaciones matemáticas que tratan de explicar cómo funciona dicho proceso. En estos modelos, es básicamente una ecuación, pero otros tipos de modelos podrían representarse mediante un sistema de ecuaciones. Un ejemplo de esto son los modelos epidemiológicos.
MODELOS LINEALES Y NO LINEALES
Las funciones R de correlación cor() nos indican si existe una relación entre la variable predictora y la variable de respuesta a través del cálculo del índice de correlación. Este puede ser calculado mediante métodos paramétricos y no paramétricos. Para el propósito de los modelos, preferimos siempre el método paramétrico conocido como la correlación de Pearson.
Figura 1: Fórmula de la correlación de Pearson Creación de autor Alfonso Prado Figura 1: Fórmula de la correlación de Pearson Creación de autor Alfonso Prado
Es importante mencionar que el coeficiente de Pearson solo nos indica que, si la variable predictora sube o baja en valor, la variable de respuesta también subirá o bajará, sin decirnos en qué proporción lo hará o si esa proporción es constante. Estos son los conceptos de linealidad y homocedasticidad. Dependiendo de si la relación es lineal o no, utilizaremos distintos tipos de modelos. En esta clase, iniciaremos con modelos lineales. Por lo tanto, cuando hacemos el análisis de correlación, debemos encontrar ya sea una correlación positiva o negativa como se muestra en la Figura 2. Si utilizáramos una variable que muestra una correlación nula o curvilínea, esta abonaría al incremento de la incertidumbre y, por ende, al error estándar de la estimación.
Figura 2: Relación lineal y no lineal Creación de autor Alfonso Prado Figura 2: Relación lineal y no lineal Creación de autor Alfonso Prado
El problema es que los valores rara vez están alineados perfectamente, como se ve en la Figura 3a. Esto se debe a que las observaciones incluyen un error de muestreo. Lo que buscamos es que la recta se ubique más o menos por la media de las observaciones para un valor dado de X (Figura 3b).
Figura 3: Índice Pearson ideal (a) Creación de autor Alfonso Prado Figura 3: Índice Pearson ideal (a) y realista (b) Creación de autor Alfonso Prado
Figura 3: Índice Pearson realista (b) Creación de autor Alfonso Prado Figura 3: Índice Pearson realista (b) Creación de autor Alfonso Prado
-
11.1 Determinación de linealidad y homocedasticidad
La homocedasticidad se refiere a una condición en la cual la varianza del residuo, o término de error, en un modelo de regresión es constante. Es decir, el término de error no varía mucho a medida que cambia el valor de la variable predictora. Si hay demasiada variación, diremos que su comportamiento es heterocedástico y, como consecuencia, el modelo no estará bien definido. La siguiente figura visualiza la varianza de la relación entre dos variables X y Y.
Figura 4: Concepto de cedasticidad Creación de autor Alfonso Prado Figura 4: Concepto de cedasticidad Creación de autor Alfonso Prado
Aprende más
Describe en concepto y pruebas (Homocedasticidad y heterocedasticidad), puedes leer el siguiente artículo ¡Accede aquí!
Creación de modelos de regresión simple
En estos modelos tenemos solamente una variable predictora y por supuesto una variable de respuesta. La ecuación lineal estará definida por tres coeficientes:
La intercepción (a) indica cual es el valor de la variable de respuesta cuando la predictora es igual a 0.
La pendiente (b) indica cuánto cambia “Y” cuando “X” cambia en 1 unidad.
El error ε o SE, conocido como error estándar de la regresión, representa la distancia promedio a la que caen los valores observados desde la línea de regresión, le dice cuán incorrecto es el modelo de regresión en promedio usando las unidades de la variable de respuesta
Figura 5: Fórmula de la regresión lineal Creación de autor Alfonso Prado Figura 5: Fórmula de la regresión lineal Creación de autor Alfonso Prado
-
11.2 Mínimos cuadrados ordinarios MCO
De acuerdo con Webster (2000), “El propósito del análisis de regresión es determinar una recta que se ajuste a los datos muestrales mejor que cualquier otra recta”. El algoritmo MCO producirá esta recta que se extiende por el centro del diagrama de dispersión. Este algoritmo calculará los valores de a y b de acuerdo con las siguientes fórmulas.
Figura 6: Fórmulas de cálculo de los coeficientes de regresión mediante Algoritmo MCO Creación de autor Alfonso Prado Figura 6: Fórmulas de cálculo de los coeficientes de regresión mediante Algoritmo MCO Creación de autor Alfonso Prado
Para la creación del modelo, R provee algunas funciones, la más simple es lm cuya sintaxis se muestra en la siguiente figura.
Figura 7: Función programática lm() Creación de autor Alfonso Prado Figura 7: Función programática lm() Creación de autor Alfonso Prado
La fórmula es el argumento más importante, misma que define cuál será la variable predictora y la variable de respuesta, y toma la forma de la siguiente expresión: respuesta ~ predictora. El “~” se lee como decir “se distribuye como” o “dependiendo de" cuando se ve en las funciones de regresión
Coeficientes, valores ajustados y residuos
Como resultado de la ejecución de lm, este devuelve un objeto que contiene varias propiedades, mediante las cuales podemos visualizar la relación entre las observaciones y los valores de la regresión y vamos a ubicar los siguientes conceptos:
Los coeficientes corresponden al cálculo hecho por el algoritmo MCO para estimar la regresión, ver figura 6.
Valores ajustados, corresponden a los valores que la función de regresión estima para cada valor de las observaciones en base a lo indicado en la figura 5. Estos valores se los denota como Ŷ (y-hat).
Los residuos corresponden a la diferencia entre Ŷ y la observación (Y) y nos interesa que estos residuos sean lo más pequeño posible porque de eso depende la precisión del modelo.
Figura 8: Valores ajustados y residuos Creación de autor Alfonso Prado Figura 8: Valores ajustados y residuos Creación de autor Alfonso Prado
Análisis de coeficientes
Al ejecutar la función summary sobre un objeto de la clase lm, nos retornará una cantidad de estadísticos que debemos analizar. La primera sección está relacionada con los coeficientes, donde encontraremos no solo los coeficientes generados por el MCO, sino también algunos estadísticos mencionados en la tabla 1.
Tabla 1: Sección de Coeficientes Creación de autor Alfonso Prado Tabla 1: Sección de Coeficientes Creación de autor Alfonso Prado
La primera columna contiene los nombres de las variables que son parte del modelo. El “intercept” corresponde al coeficiente a de la fórmula de la regresión y siempre estará presente con este nombre. A continuación, estarán los nombres de las variables (por ejemplo, “fheight”) que han sido incluidas en el modelo.
La segunda columna contiene la estimación de los coeficientes; nótese la palabra estimación, es decir, que estos no son exactos y que los mismos pueden tener un intervalo de confianza, que figura en la tercera columna como Error Estándar. Lo que nos interesa es que el error estándar sea lo más pequeño posible con respecto al coeficiente. Esto se refleja en la cuarta columna, t-value, que es la relación entre el valor estimado y el error estándar.
La columna Pr>|t| corresponde a p-value de un t-test que prueba la hipótesis de si el valor del coeficiente podría ser igual a 0. Esta debe contrastarse con el nivel α, que por defecto es .05 (95%). En otras palabras, nos permite validar si el coeficiente pudiera ser 0. Si la hipótesis es correcta, indicaría que la variable no es estadísticamente significativa.
En conclusión, valoramos la pertenencia de las variables en base a los siguientes criterios:
- • t-value alto indicará que el error en su cálculo es bajo
- • p-value bajo indicará que el coeficiente no es cero.
Por último, summary nos presenta unos códigos de significación del p-value, es una forma de indicar que tan importante es la variable y preferimos variables con “***” .
Una forma gráfica de entender la importancia de cada variable es mediante la función coefplot del paquete coefplot. Este gráfico nos presenta la probabilidad de que el coeficiente sea 0 mediante un diagrama de barras de error. Este diagrama contiene un punto correspondiente al valor estimado de los coeficientes y dos barras que representan la variabilidad de ±1 σ (traza gruesa) y ±2 σ (traza delgada). Valoramos una variable como significativa si las barras nunca cruzan la línea punteada de 0.
Figura 9: Coefplot de una regresión Creación de autor Alfonso Prado Figura 9: Coefplot de una regresión Creación de autor Alfonso Prado
Otra sección del summary del modelo que es de particular interés es la relacionada con los residuos.
Figura 10: Estadísticos de los Residuos C reación de autor Alfonso Prado Figura 10: Estadísticos de los Residuos Creación de autor Alfonso Prado
En general, nos interesan dos temas:
- • Los residuos deben ser pequeños, residuos altos nos indican que el modelo no está bien definido
- • Los residuos deben ser pequeños, residuos altos nos indican que el modelo no está bien definido
Lo que el summary del modelo nos presenta es esta distribución en términos de cuartiles. La forma más fácil de validar si este supuesto se cumple es mediante un diagrama de caja, según el cual la distancia del Q1 a la media debe ser similar a la distancia de la media al Q3.
Figura 11: Diagramas de Caja de una distribución normal (a) Creación de autor Alfonso Prado Figura 11: Diagramas de Caja de una distribución normal (a) Creación de autor Alfonso Prado
Figura 11: Diagramas de Caja de una distribución sesgada(b) Creación de autor Alfonso Prado Figura 11: Diagramas de Caja de una distribución sesgada(b) Creación de autor Alfonso Prado
En este punto, nos preguntamos ¿cuáles son las causas para que la distribución de los residuos no sea normal? Comúnmente, esto tiene que ver con los valores atípicos (outliers en inglés) representados en el diagrama de caja por un color diferente (rojo en el ejemplo). En general, cualquier punto de datos que se encuentre fuera del rango intercuartílico (ejemplo: 1.5 * IQR) se considera un valor atípico, donde IQR se calcula como la distancia entre los valores del percentil 25 y 75 para la variable. Estos valores atípicos harán que el diagrama de caja se desvíe hacia cualquiera de sus extremos. El analista debe encontrar la razón por la cual se presentan estos “outliers", siendo posible que los mismos sean errores de medida, en cuyo caso el analista podría eliminar dichas observaciones.
Pero también es posible que los valores sean verdaderos, en cuyo caso su eliminación afectará el modelo al no poder predecir valores tan extremos. Muchos autores toman una opción intermedia conocida como imputación, que implica el reemplazo de valores atípicos por un valor máximo o mínimo.
Aprende más
Para conocer más sobre (Imputación ), puedes leer el siguiente artículo ¡Accede aquí!
-
11.3 Coeficiente de determinación
Otra sección importante que nos entrega el summary es la relacionada con las métricas de la bondad del modelo.
Figura 12: Métrica de la bondad del modelo Creación de autor Alfonso Prado Figura 12: Métrica de la bondad del modelo Creación de autor Alfonso Prado
Error estándar de los residuos: Este valor nos indica la varianza de los residuos, es decir, qué tan dispersos están los valores de los residuos. Una dispersión muy grande significa que, para muchas observaciones, el residuo es alto, y en general queremos que la varianza sea pequeña o moderada.
R2 y R2 cuadrado ajustado: También llamado coeficiente de determinación es una medida de qué tan bien se ajusta su modelo a los datos. Como habíamos visto en la fórmula de la regresión (figura 5), el valor Ŷ está afectado por el ε o SE. R2 indica que tanto de la variable de respuesta está dado por la variable predictora y que tanto por el error ε.
Valores más altos representan diferencias más pequeñas entre los datos observados y los valores ajustados.
En el mejor caso, los valores observados coinciden con los ajustados, la suma de cuadrados de los residuos (RSS) es 0 y R2 =1 El valor ajustado contiene además una penalización en función de cantidad de variables que contiene y es una medida apropiada para medir un modelo de regresión múltiple.
Veamos un ejemplo completoUsaremos el dataset father.son que es parte del paquete UsingR, este dataset contiene 1078 observaciones de altura de padres con respecto a la altura de sus hijo. El propósito es demostrar que se puede obtener un modelo que permita predecir la altura del hijo (variable de respuesta) en función de la altura del padres (variable predictora)
#Cargamos el dataset
require(UsingR) data(father.son) names(father.son)
#En primer lugar analizamos la data
#Vamos a validar que existe una relación entre las variables
cor(father.son)
DATASET DATASET
#Vemos que la correlación es positiva pero no fuerte, lo cual puede ser debido a que la relación no es completamente lineal. #Podemos validad la linealidad mediante un diagrama de dispersión ggplot (data=father.son , aes(x=fheight , y= sheight)) + geom_point()+ geom_smooth(method=loess)+ xlab("Altura Padre")+ ylab("Altura hijo")
Altura Padre Nombre_de_la_figura
#Del gráfico podemos observar que la relación si parece ser lineal pero lo que se nota es una varianza alta #En segundo lugar debemos validar si la data presenta datos atípicos (outliers), lo haremos con un diagrama de caja ggplot (data=father.son , aes(x=fheight,y=sheight)) + geom_boxplot(outlier.colour="red", outlier.shape=16, outlier.size=2, notch=FALSE)
Fheight Nombre_de_la_figura
#Del diagrama anterior concluimos que existen outliers, pero no sabemos exactamente cuantos son, el diagrama de caja solo muestra un punto por cada valor, por lo que es mejor superponer las observaciones con el siguiente código. ggplot (data=father.son , aes(x=fheight,y=sheight)) + geom_boxplot(outlier.colour="red", outlier.shape=16, outlier.size=2, notch=FALSE)+ geom_point( aes(x=fheight, y=sheight), color="LIGHTBLUE")
Fheight Nombre_de_la_figura
#Notamos que existen varios datos atípicos. Pero como indicamos anteriormente, estos datos no necesariamente deben ser borrados, solo por propósito de demostración, indicaremos como proceder en caso de que se desee borrarlos. NROW(father.son) #Definimos una función is_outlier <- function(x) { #obtenemos el vector de cuantiles qs = quantile(x, probs = c(0.25, 0.75), na.rm = TRUE) #Sacamos el valor los cuantiles 1 y 3 lowerq <- qs[1] upperq <- qs[2] iqr = upperq - lowerq #Definimos los límites, los valores para base usados son 1.5 o 3, #depende de que tan exigentes queremos ser en el análisis (1.5 más exigente, 3 es menos exigente). base=1.5 extreme.threshold.upper = (iqr * base) + upperq extreme.threshold.lower = lowerq - (iqr * base) #Creamos un vector lógico que nos indica si es outlier o no x > extreme.threshold.upper | x < extreme.threshold.lower } vect1 <- is_outlier(father.son$sheight) #filtramos fs1 <- father.son$fheight[!vect1] fs2 <- father.son$sheight[!vect1] #Creamos un nuevo dataset father_son_sin_outliers <- data.frame(fheight=fs1, sheight=fs2) NROW(father_son_sin_outliers) #Se han eliminado 19 observaciones #Creamos nuestro modelo padre_hijoLM <- lm(sheight ~ fheight , data= father_son_sin_outliers) #Revisando el modelo summary(padre_hijoLM)
Nombre_de_la_figura
#Podemos validar si los residuos son normales residuos <- padre_hijoLM$residuals resdf <- data.frame(X=residuos, Y=dnorm(residuos)) ggplot (data=resdf , aes(x=X, y=Y)) + geom_line(color="BLUE")
Nombre_de_la_figura
#Podemos validar si los residuos son normales residuos <- padre_hijoLM$residuals resdf <- data.frame(X=residuos, Y=dnorm(residuos)) ggplot (data=resdf , aes(x=X, y=Y)) + geom_line(color="BLUE")
Nombre_de_la_figura Nombre_de_la_figura
#Concluimos que los residuos son normales #Obtenemos un R2 de 0.24, lo cual indica que no es muy bueno #Y error estándar de los residuos de 0.226
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
En la clase anterior, revisamos el concepto de la regresión lineal simple. Sin embargo, la mayoría de los negocios, procesos y eventos que se modelan contienen una gran cantidad de variables que afectan a la variable de respuesta, lo que hace que un modelo con una sola variable dé como resultado un error estándar considerable.
En estos modelos, además de identificar qué variables son importantes, vamos a considerar una serie de aspectos clave como la multicolinealidad y el sobreajuste, que, de no controlarse, podrían llevarnos a un error de predicción exagerado.
DIAGRAMA DE CAJAS
Conocido también como BOXPLOT. Es un importante gráfico del análisis exploratorio de datos. Al igual que el histograma, permite tener una idea visual de la distribución de los datos. Permite determinar si hay simetría, ver el grado de variabilidad existente y detectar los "outliers" (datos muy diferentes al conjunto de información), es decir la existencia de posibles datos discordantes. Además, el Boxplot es bien útil para comparar grupos. Es un diagrama que muestra la distancia en que se encuentran los datos y cómo están distribuidos equitativamente.
-
Regresión múltiple
En general, al modelar un proceso, encontramos que existen múltiples variables que influyen en su resultado. Un modelo de regresión lineal múltiple contiene múltiples variables predictoras. Es importante notar que no todas las variables afectarán el modelo en igual medida.
Un modelo múltiple es básicamente el resultado de varios modelos de regresión simple combinados. Por lo tanto, la fórmula general es la misma para cada una de las variables. Matemáticamente, los coeficientes, el error estándar y las observaciones se pueden representar mediante vectores y matrices, como se muestra en la siguiente figura.
Figura 1: Fórmula general de regresión múltiple
Creación del autor Alfonso PradoFigura 1: Fórmula general de regresión múltiple
Creación del autor Alfonso PradoNotamos que las variable predictoras (X) se halla en mayúscula, indicando que estos representan una matriz, más específicamente una matriz de dimensión n*p, donde n es el número de observaciones y p la cantidad de predictores del modelo (figura 2a). Los coeficientes (ahora llamados β) están representados por un vector de longitud p (figura 2b). El error de cada regresión es también un vector de longitud p, es decir, un error por cada predictor (figura 2c). La variable dependiente Y (en mayúscula) es también una matriz que representa la contribución de cada variable (figura 2d).
Por último, también tenemos un vector ε una matriz de dimensión p X 1, que representa el error como explicamos en la clase anterior.
Figura 2: Componentes de regresión múltiple
Creación del autor Alfonso PradoFigura 2: Componentes de regresión múltiple
Creación del autor Alfonso PradoFunciones Programáticas de regresión múltiple
La función lm mencionada anteriormente es la misma utilizada para modelos de regresión múltiple; pero en este caso, incorporaremos más variables predictoras mediante los siguientes operadores:
El símbolo "+" es una solicitud implícita de calcular un(os) coeficiente(s) adicionales para otras variable(s) predictora(s).
Por ejemplo: lm(valxSqFt ~TUnits + GSqFt + Boro , data=housing) indicaría que el modelo contiene 3 variables predictoras (TUnits, GSqFt , y Boro )
Por otro lado, hay ocasiones donde nos interesa ver el efecto combinado de dos variables. Por ejemplo, en un modelo para predecir el riesgo de sufrir diabetes, se ha considerado como variable predictora el ejercicio que la persona realiza como mecanismo para reducir la cantidad de glucosa en la sangre. Sin embargo, el ejercicio por sí solo no es suficiente para predecir correctamente el riesgo, por lo que incorporamos una segunda variable, el índice de masa corporal (IMC o BMI en inglés). En este caso, el riesgo está dado por la interacción de estas dos variables. El asterisco (*) se utiliza para indicar todos los efectos principales e interacciones entre las variables a las que se une. Entonces, por ejemplo, el término “ejercicio * IMC” se expandiría a los tres términos: ejercicio, IMC, y ejercicio: IMC.
El símbolo “:” indica que se desea solo el efecto combinado de las variables. Por ejemplo, ejercicio:IMC representa solo el efecto combinado de estas variables y no el efecto de cada variable por separado.
PREDICCIÓN:Una vez establecido el modelo (lm), podemos obtener predicciones para los valores observados y nuevos valores, para lo cual usaremos la función prodict(). La siguiente figura muestra la sintaxis de esta función.
Figura 3: La función de predicción
Fuente: www.rdocumentation.orgFigura 3: La función de predicción
Fuente: www.rdocumentation.orgEsta función retorna un objeto del tipo lm, que contiene una cantidad de elementos como se muestra en la figura 4. Este objeto será pasado como argumento a la función predict para la predicción.
Además, debemos indicar cuáles son los valores de las variables predictoras para los cuales se debe realizar la predicción. Hay dos casos: el primero es realizar una predicción de las mismas observaciones y el segundo consiste en predecir nuevos valores o valores a futuro.
En el primer caso, usaremos las mismas observaciones como valores de entrada para la predicción. Uno podría preguntarse: ¿A qué propósito sirve esto? La respuesta es simple: es una forma rápida de evaluar la bondad del modelo.
En el segundo caso, debernos ingresar un dataframe (newdata) cuyas columnas contengan los valores a predecir.
Figura 4: Características de un modelo
Creación del autor Alfonso PradoFigura 4: Características de un modelo
Creación del autor Alfonso PradoAdicionalmente, como hemos visto, las predicciones nunca serán exactas, existe una cierta incertidumbre dentro del cual estimamos que estará la predicción correcta. Otra vez, aquí tenemos 2 opciones.
El primer caso se trata de predecir la respuesta para un valor medio. De acuerdo con Szretter M.(2017) “Nos interesa estimar la respuesta media o esperada cuando (X1, . . . , Xp−1) toma el valor dado (Xh1, . . . , Xh,p−1) . Notamos a esta respuesta media por E (Yh) o bien E (Yh | (Xh1, . . . , Xh,p−1)) ”
Por ejemplo, (simplificando con un modelo de regresión simple) podemos tener algunas observaciones para el mismo valor de la variable predictora, con distintos resultados de la variable de respuesta. Esto nos dará un intervalo de confianza dentro del cual asumimos que se incluye el valor de la predicción.
En el segundo caso, de acuerdo con Szretter M.(2017) , “ queremos predecir un resultado individual surgido a partir de la distribución de Y. Por supuesto, la gran mayoría de los resultados individuales se desvían de la respuesta media, y esto debe ser tenido en cuenta por el procedimiento para la predicción de la Yh(nueva).” Por lo tanto, un intervalo de predicción será generalmente mucho más amplio que un intervalo de confianza para el mismo valor.
El argumento de “Interval” permite seleccionar el caso, mediante el valor de “confidence” (figura 4a) o Prediction” (figura 4b) y se lo puede visualizar mediante las rectas punteadas en rojo.
¿Cuál deberíamos usar? En general, estamos interesados en predicciones individuales específicas, por lo que un intervalo de predicción sería más apropiado.
De acuerdo con Bruce ( 2017) “El uso de un intervalo de confianza cuando debería usar un intervalo de predicción subestimará en gran medida la incertidumbre en un valor predicho dado “
Figura 5: A. Intervalos de Confianza y Predicción
Creación del autor Alfonso PradoFigura 5: A. Intervalos de Confianza y Predicción
Creación del autor Alfonso Prado
Figura 5: B. Intervalos de Confianza y Predicción
Creación del autor Alfonso PradoFigura 5: B. Intervalos de Confianza y Predicción
Creación del autor Alfonso PradoAprende más
Para conocer más sobre (Diferencias de intervalos), puedes leer el siguiente artículo ¡Accede aquí!
-
12.1 El error estándar de la estimación
Dentro de la salida de la regresión encontramos el término error estándar residual, es una medida de la variabilidad de los residuos de un modelo lineal.
Figura 6: Error estándar de los residuos
Creación del autor Alfonso PradoFigura 6: Error estándar de los residuos
Creación del autor Alfonso PradoEste estadístico sirve para comparar que tan bueno es este modelo, pero no sabemos contra que debemos comparar. Para cada modelo estimaremos la suma de cuadrados de los residuos, esto estaría dado por la siguiente fórmula
Figura 7: Suma de cuadrados de los residuos
Creación del autor Alfonso PradoFigura 7: Suma de cuadrados de los residuos
Creación del autor Alfonso PradoEntonces, usamos las sumas de cuadrados para calcular el ajuste del modelo más básico (que contiene un solo parámetro que ajuste a todas las observaciones). Es decir, elegimos el valor de μ tal que minimice la suma de cuadrados con respecto a la media, y esta es calculada sin tener en cuenta para nada los valores de las covariables (X1, . . . , Xp−1). En otras palabras, el modelo más básico solo toma en cuenta el intercept y no las variables, y la resta de los dos valores indicará que tan bueno es el modelo con respecto a la media, como se muestra en la siguiente figura.
Figura 8: Error Estándar residual
Creación del autor Alfonso PradoFigura 8: Error Estándar residual
Creación del autor Alfonso PradoDonde: SSTo = suma de cuadrados totales SSRes= suma de cuadrados de la predicción a la media
El siguiente gráfico clarifica estos conceptos
Figura 9: Relación entre SSTo, SSRes, SSReg
Creación del autor Alfonso PradoFigura 9: Relación entre SSTo, SSRes, SSReg
Creación del autor Alfonso Prado -
12.2 El problema de la multicolinealidad
Además del tema relacionado con los valores atípicos, existen 2 problemas que pueden afectar el rendimiento del modelo.
SobreajusteEl sobreajuste es un error de modelado que ocurre cuando un modelo se ajusta demasiado a las observaciones. Generalmente, esto sucede al crear un modelo demasiado complejo para explicar los datos observados, lo cual conlleva a un mal desempeño al predecir valores no observados o futuros.
Como consecuencia, existirá sobreajuste entre el modelo y la muestra cuando lo que se busca es un modelo que, si bien ha sido entrenado con una muestra específica, sea capaz de realizar buenas predicciones sobre valores no contenidos en ella. La siguiente figura explica este concepto:
Figura 10: Comparación de modelos normal (a) y sobre ajustado (b)
Fuente AWS documentationFigura 10: Comparación de modelos normal (a) y sobre ajustado (b)
Fuente AWS documentationAlgunos factores que contribuyen al sobre ajuste son:
- • La cantidad de variables incorporadas al modelo es alta
- • La muestra es demasiado pequeña y no contiene posibles valores futuros
- • El dato de la muestra contiene información aleatoria que sobre la cual se entrena el modelo
De existir sobre ajuste, podemos utilizar el mecanismo de validación cruzada herramienta que permite limitar la data de entrenamiento. Existen numerosas técnicas de validación cruzada, pero la más efectiva es la llamada k-fold. Este mecanismo lo veremos en detalle en la clase 16. MulticolinealidadDe acuerdo con Webster (2000) “Este problema surge cuando unas de las variables independientes están relacionadas están relacionadas entre sí. Esta situación contraviene una de las condiciones de la regresión múltiple que es que las variables predictoras son independientes entre sí. Esto produce la incapacidad de separar los efectos individuales de cada variable independiente sobre Y. Ante la presencia de la multicolinealidad es imposible desenmarañar los efectos de cada X.”
Aprende más
Para conocer más sobre Multicolinealildad, puedes leer el siguiente artículo ¡Accede aquí!
Detección de la Multicolinealidad con la función VIF
VIF es un diagnóstico simple, conocido como factor de inflación de la varianza. Hay varios paquetes que disponen de esta función; el más común es HH, el cual calcula el VIF para cada predictor y lo compara con el resto. El R² de un predictor se compara con los predictores restantes, y, por lo tanto, se determina si la presencia del predictor i en el modelo es redundante. Los valores calculados de VIF superiores a 5 se consideran sospechosos, y valores por encima de 10 son evidencia clara de multicolinealidad.
Comparación de modelos En esta sección daremos algunas de las mejores prácticas para el desarrollo de modelos. Es importante entender que el desarrollo de un modelo de predicción es un proceso iterativo, en el cual el analista prueba distintas combinaciones de variables predictoras, valida las métricas de bondad del modelo, realiza ajustes y vuelve a iniciar el ciclo.
La selección correcta de variables basados en la correlación, incluir variables con baja correlación solo aumentará el error. Por otro lado, es importante validar la linealidad de la relación, para lo cual la visualización mediante diagramas de caja y dispersión son las herramientas principales
Evaluar la métrica de R2 ajustado que es el principal indicador de la calidad del modelo, cuyo propósito es obtener el mejor modelo con la menor cantidad de variables, esto es fácil de deducir en base a su fórmula de cálculo, que incluye el valor K, que representa la cantidad de variables del modelo.
Figura 11: Formula de R2 ajustado
Creación del autor Alfonso PradoFigura 11: Formula de R2 ajustado
Creación del autor Alfonso PradoMás aún, al aumentar la cantidad de variables, es posible que el modelo sea afectado por la multicolinealidad. Las pruebas de VIF y análisis de correlación ayudan al analista a corregir este problema, encontrando el subconjunto óptimo de variables.
La siguiente figura muestra las observaciones de 2 modelos de regresión múltiple. Note como el modelo que obtiene R2=0.81 se ajusta mejor a las observaciones que aquella que obtiene un R2=0.45
Figura 12: Ajuste de 2 modelos
Creación del autor Alfonso PradoFigura 12: Ajuste de 2 modelos
Creación del autor Alfonso PradoPor último, es importante validar si el modelo resultante puede contener un sobre ajuste, esto lo haremos mediante mecanismos de validación cruzada, los cuales ayudará a crear un modelo más equilibrado en cuanto a la predicción de observaciones vs. valores nuevos.
Veamos un ejemplo completohousing <- read.table("housing.csv" , sep=",", header=TRUE, stringsAsFactors=FALSE) names(housing)
Nombre_de_la_figura
#La variable dependiente es valxSqFt #Las siguientes variables parecen ser de interés 3,5:12 #Obteniendo correlación cor_housing <- cor(housing[,c(3,5:12)]) #Creamos unas funciones para visualizar la correlación get_lower_tri<-function(x){ x[upper.tri(x)] <- NA return(x) } get_upper_tri <- function(x){ x[lower.tri(x)]<- NA return(x) } reorder_cor_mat <- function(x){ dd <- as.dist((1-x)/2) hc <- hclust(dd) x <-x[hc$order, hc$order] } #Visualizando cor_mat <-reorder_cor_mat(cor_housing) #Obtenernos el triángulo superior upper_tri <- get_upper_tri(cor_mat) # Transponemos esta matriz melted_cor_mat <- melt(get_upper_tri(cor_mat), na.rm = TRUE) # Creando mapa de calor ggplot(melted_cor_mat, aes(Var2, Var1, fill = value))+ geom_tile(color = "white")+ scale_fill_gradient2(low = "blue", high = "red", mid = "white", midpoint = 0, limit = c(-1,1), space = "Lab", name="Corelación Ordenada") + theme_minimal()+ # minimal theme theme(axis.text.x = element_text(angle = 45, vjust = 1, size = 12, hjust = 1))+ coord_fixed()
Nombre_de_la_figura Nombre_de_la_figura
#Que observamos en este gráfico. #Vemos que las variables que mayor correlación tienen con la respuest son #GIncomexSqFt, ExpSqFt, FullValue, NetIncome. #Y las variables de menor importancia serían TUnits y GSqFt #Para la selección deberemos tambien validar que las varaibles predictoras no esten correlacionadas entre si. #Creamos el modelo house1 <- lm(valxSqFt ~TUnits+ GSqFt +Boro , data=housing) summary(house1)
Nombre_de_la_figura
#analizando residuos resdf <- data.frame(res=house1$residuals) ggplot(data=resdf ,aes (y=res, x=1))+ geom_boxplot(color="blue")
Nombre_de_la_figura Nombre_de_la_figura
#Analizando coeficientes coefplot(house1)
Nombre_de_la_figura Nombre_de_la_figura
#Analizando Intervalos de confianza confint(house1)
Nombre_de_la_figura Nombre_de_la_figura
#Analizando multicolinealidad house1 <- lm(valxSqFt ~TUnits+ GSqFt +Boro , data=housing) length(coef(house1))-1 vars <- c( "TUnits" , "GSqFt" , "BoroBrooklyn" , "BoroManhattan" , "BoroQueens" , "BoroStaten Island") house1vif <- HH::vif(house1) house1r2 <- 1/(1- summary(house1)$r.squared) sprintf("%s %f debe ser menor que %f para no multicolinealidad", vars , house1vif, house1r2) #Obtenemos [1] "TUnits 12.46 debe ser menor que 2.51 para no multicolinealidad" [2] "GSqFt 12.62 debe ser menor que 2.51 para no multicolinealidad" [3] "BoroBrooklyn 8.50 debe ser menor que 2.51 para no multicolinealidad" [4] "BoroManhattan 10.10 debe ser menor que 2.51 para no multicolinealidad" [5] "BoroQueens 6.18 debe ser menor que 2.51 para no multicolinealidad" [6] "BoroStaten Island 1.37 debe ser menor que 2.51 para no multicolinealidad" #Concluimos que TUnits y GsqFt tienen multicolinealidad
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
RETO 4: Aplicar diversas técnicas para estimar la bondad de los modelos a fin de comparar ventajas y desventajas de cada uno de ellos
Objetivo: Comparar diversos modelos.
Indicaciones:
- Aplicar métricas derivadas del likelihood:
- Estimadores y deviances
- Aplicar métricas derivadas de cross-validación:
- Delta
- Aplicar ANOVA:
- Análisis del estadístico F
Actividades
- Obtener múltiples métricas como indicadores de la bondad los distintos modelos
- Aplicar técnicas de regresión logística
- Aplicar técnicas de comparación de modelos
-
Introducción
En esta clase, trataremos sobre modelos de clasificación. Hasta el momento, todos los modelos fueron desarrollados con variables de respuesta continuas; sin embargo, los modelos de clasificación son más comunes. Existe una gran cantidad de modelos de clasificación en la ciencia de datos, pero en esta clase, nos centraremos específicamente en modelos de regresión logística. Adicionalmente, en este punto introduciremos algunas pruebas de asociación utilizadas cuando las variables categóricas no son dicotómicas.
Por otro lado, en estos modelos, continuamente se usan variables categóricas, por lo que es importante entender cómo este tipo de variables pueden ser codificadas de tal manera que se pueda obtener un mejor rendimiento del modelo, al permitir codificar variables categóricas como variables numéricas o cuasi numéricas.
Distribución Chi-cuadrado
La distribución ji cuadrado es una familia de distribuciones. Cada distribución se define por los grados de libertad. (Los grados de libertad se comentan en mayor detalle en las páginas sobre la prueba de bondad de ajuste y la prueba de independencia). En la siguiente figura se muestran tres distribuciones ji cuadrado diferentes, con distintos grados de libertad.
Prueba de Chi cuadrado
La prueba Chi-cuadrado es una prueba de hipótesis utilizada para determinar si existe una relación entre dos variables categóricas. La prueba Chi-cuadrado comprueba si las frecuencias que se dan en la muestra difieren significativamente de las frecuencias que cabría esperar. Así, se comparan las frecuencias observadas con las esperadas y se examinan sus desviaciones.
-
Modelos de clasificación
Cuando hablamos de modelos cuya variable de respuesta es discreta o categórica, nos referimos a modelos de clasificación. Si la variable de respuesta solo puede tomar dos valores (verdadero/falso o 0/1), nos referimos a ellos como modelos binomiales; por el contrario, si puede tomar un conjunto de valores, nos referimos a ellos como modelos multinomiales. En la presente clase veremos modelos logísticos binomiales.
-
13.1 Modelos logístico
La regresión logística es un modelo que se utiliza para determinar la probabilidad de que ocurra un evento. Estos modelos muestran la relación entre variables y luego calculan la probabilidad de un resultado determinado. Para la creación de este tipo de modelos, recurrimos a la función glm().
Hasta ahora, hemos utilizado la función lm() para generar modelos que tienen determinados supuestos, por ejemplo, la distribución debe ser gaussiana o normal, y su varianza debe ser homocedástica. Pero no todos los problemas cumplen con estos supuestos. ¿Qué pasa si los datos reflejan una distribución binomial o de Poisson? Para esto, introduciremos la función glm.
Aprende más
Para conocer más sobre Modelos lineales generalizados, puedes leer el siguiente artículo ¡Accede aquí!
Los modelos GLM son una generalización de los modelos lineales vistos, que permiten crear modelos en los cuales algunas condiciones puedan ser especificadas. Una de estas condiciones, supone que cada resultado Y de las variables de respuesta se genera a partir de una distribución particular en la familia exponencial, esta incluye la distribución normal, binomial, Poisson y gamma, entre otras.
Los modelos glm tiene 3 componentes:
Componente aleatorio: Especifica la distribución de probabilidad de la variable de respuesta. Específicamente, para una distribución dada (normal, binomial, etc.), estiman su media y varianza. No hay un término de error separado (ε) como en la regresión lineal.
Componente Sistemático: Especifica las variables explicativas del modelo y su combinación lineal. Esto es similar a la regresión lineal.
Función de enlace: Indica cómo el valor esperado de la respuesta se relaciona con la combinación lineal de variables predictoras. Glm NO asume una relación lineal entre la variable de respuesta y las variables predictoras (como lm), pero sí asume una relación lineal entre la respuesta esperada transformada en términos de la función de enlace y las variables explicativas.Específicamente, para regresión logística utilizaremos la familia binomial (family=binomial(link = "logit"))
Note que la distribución está dada por distintas “familias” y entre paréntesis aparece la función “link”, que indica justamente la función de enlace que se usará en el proceso.
La familia de binomial dispone de varias funciones de enlace que permiten el comportamiento requerido. La siguiente tabla presenta el nombre de la función y su fórmula de cálculo.
Tabla 1: Funciones de enlace para regresión logística
Creación del autor Alfonso PradoTabla 1: Funciones de enlace para regresión logística
Creación del autor Alfonso PradoLas funciones de enlace tienen distintas características, como se evidencia en la siguiente figura.
Figura 1: Características de funciones de enlace
Creación del autor Alfonso PradoFigura 1: Características de funciones de enlace
Creación del autor Alfonso PradoPor defecto, en el caso de distribución binomial, la función es “logit”, que, como vemos en la tabla 1, se basa en el concepto de Odds.
La siguiente figura explica el concepto de la función de enlace. Para un cierto rango de valores de la variable predictora X, se desea que la respuesta Y sea 0. Sin embargo, cuando X sube de cierto valor, se espera que Y sea 1.
Figura 2: Relación entre X y Y en un modelo logístico
Creación del autor Alfonso PradoFigura 2: Relación entre X y Y en un modelo logístico
Creación del autor Alfonso Prado -
13.2 Medición de odds y odds-ratio
El análisis de datos categóricos se basa típicamente en tablas de contingencia de dos o más dimensiones, tabulando la frecuencia de ocurrencia de niveles de datos nominales y/o ordinales. Una tabla de contingencia es una herramienta utilizada para crear al menos dos filas y dos columnas que representan datos categóricos en términos de conteos de frecuencia. La tabla permite medir la interacción entre dos variables para conocer una serie de información “oculta” de gran utilidad y comprender con mayor claridad los resultados de una investigación.
Por ejemplo, tenemos un dataset que presenta la ocurrencia de una enfermedad (variable mf), desglosada por otras variables como área, rango de edad, sexo, y queremos entender cómo se distribuye la variable mf de acuerdo con el área (o cualquier otra variable categórica).
Figura 3: Dataset (a)
Creación del autor Alfonso PradoFigura 3: Dataset (a)
Creación del autor Alfonso Prado
Figura 3: Tabla de contingencia (b)
Creación del autor Alfonso PradoFigura 3: Tabla de contingencia (b)
Creación del autor Alfonso PradoEn principio, la tabla de contingencia toma el nombre de las filas y columnas de las variables que analiza. Sin embargo, se acostumbra a crear la tabla con nombres genéricos como Exposure y Outcome, donde las filas (Exp+ y Exp-) indican haber estado sujeto a un “tratamiento” y las columnas (Out+, Out-) haber desarrollado un efecto o no. Debemos tomar en cuenta que la cantidad de observaciones de un valor nominal no va a ser necesariamente la misma de otro valor. Por ejemplo, la cantidad de encuestados hombres (Male) no es igual a las mujeres (Female), por lo tanto, la tabla debe ser procesada a fin de encontrar el valor del odds. El Odds nos indica la probabilidad entre Exposure y Outcome. Ejemplo: En la tabla siguiente odds de los expuestos=140/84, odds de no expuestos=139/92.
Tabla 2: Odds y Odds Ratio
Creación del autor Alfonso PradoTabla 2: Odds y Odds Ratio
Creación del autor Alfonso PradoSin embargo, los odds de cada grupo no son suficientes para obtener una idea de si la variable es significativa. Esto se debe a que, del total de expuestos, no todos desarrollaron un resultado positivo. Lo mismo se puede decir a la inversa de los no expuestos. Por lo tanto, para comparar los dos grupos (expuestos y no expuestos), dividiremos los valores de cada grupo y esto se denomina el odds ratio o OR. Del ejemplo, esto sería igual a 1.67/1.51 =1.1
¿Cómo interpretar el odds-ratio? La razón de probabilidades nos dice cuánto más altas son las probabilidades de exposición entre los casos de una salida positiva que entre los casos de una salida negativa. Mientras mayor sea la razón de los odds (OR), mayor será la probabilidad de que los eventos se asocien positivamente. Si la razón de probabilidades es menor que 1, los eventos se asocian negativamente. Si es cercana a 1, no hay influencia. Podemos entender esto como una correlación entre variables nominales. Note que se divide la probabilidad de que se presente el evento para la probabilidad de que no se presente, cuyo logaritmo es utilizado por la función logit (Ver tabla 1)
Figura 4: Odds ratio como relación de probabilidad
Creación del autor Alfonso PradoFigura 4: Odds ratio como relación de probabilidad
Creación del autor Alfonso PradoVeamos un ejemplo:
Se trata de un dataset de una empresa que emplea, en un momento dado, a unos 4000 empleados. Sin embargo, cada año, alrededor del 15% de sus empleados abandona la empresa y necesitan ser reemplazados. Esto ocasiona una serie de problemas a la empresa, por lo que se recurre a un modelo logístico que ayuda a predecir la deserción de los empleados. Dentro de las variables predictoras, tenemos el género y la respuesta es attrition. ¿Cuál es la relación entre género y attrition?
#Obtenemos la tabla de contingencia table(data$Gender, data$Attrition)
Nombre_de_la_figura Nombre_de_la_figura
Procesamos la tabla de contingencia epi.2by2(table(data$Gender, data$Attrition))
Nombre_de_la_figura Nombre_de_la_figura
El análisis nos indica que los empleados varones tienen un 11% más de probabilidades que renunciar.
-
13.3 Prueba Chi-cuadrado de independencia
El proceso de tablas de contingencia visto anteriormente funciona bien para variables dicotómicas. Pero ¿qué pasa si tenemos más de dos niveles de la variable? Por ejemplo, del mismo dataset mencionado anteriormente, existen variables como Marital Status (estado civil), que tiene tres niveles (casado(a), divorciado(a), soltero(a)). En este caso, la función 2by2 no funciona, por lo que debemos recurrir a otra prueba de independencia conocida como o Ji-cuadrado.
Tabla 3: Tabla de contingencia MaritalStatus – Attrition
Creación del autor Alfonso PradoTabla 3: Tabla de contingencia MaritalStatus – Attrition
Creación del autor Alfonso PradoEn estos casos, necesitamos realizar los siguientes pasos:
- a. Mostrar que existe una relación para lo cual usaremos la prueba de independencia Xi2 (se pronuncia chi-cuadrado).
- b. La prueba Xi2 (al igual que otras pruebas) consiste en 2 partes, obtener un estadístico y compararlo con su distribución. En este caso, la distribución es Chi cuadrado, y los grados de libertad se calcula como (filas -1)*(columnas -1) de la tabla de contingencia
- c. Validar en forma gráfica mediante diagramas de mosaicos
- d. Digitalizar o codificar la variable
De acuerdo con Ramírez-Alan ,(2016) “El test Xi2 considera la hipótesis nula (H0) de que las variables son independientes. Si esto es verdad, la frecuencia de ocurrencia debería estar dada por la cantidad de casos totales multiplicada por la probabilidad esperada.” En el ejemplo anterior, si la probabilidad de renunciar es igual para los 3 niveles (πij = 33%) entonces, si se han detectado 1000 renuncias, estas deberían estar distribuidas en las 3 categorías (n*πij =1000*.33). Este valor conocido como µij .
Figura 5: Frecuencia esperada
Creación del autor Alfonso PradoFigura 5: Frecuencia esperada
Creación del autor Alfonso PradoPero si Ha está en lo correcto va a existir una diferencia entre frecuencia observada (ηij) y la esperada (μij), lo que indicaría que existe algún fenómeno subyacente que influye en la frecuencia observada.
La prueba χ² (
chisq.test
) calcula esta diferencia de la siguiente forma:
Figura 6: Fórmula de Xi2
Creación del autor Alfonso PradoFigura 6: Fórmula de Xi2
Creación del autor Alfonso PradoMientras mayor sea este indicador, mayor las probabilidades de que las variables estén relacionadas, por el contrario, el numerador tiende a 0 .
La prueba retorna un p-value que debe ser contrastado contra un χ²-crítico, obtenido en base a la función
qchisq
.La siguiente figura explica las zonas de aceptación y rechazo de la asociación entre variables.
Figura 7: Zonas de aceptación y rechazo de la prueba Xi2
Creación del autor Alfonso PradoFigura 7: Zonas de aceptación y rechazo de la prueba Xi2
Creación del autor Alfonso Prado#Obtenemos la tabla de contingencia de MaritalStatus tab <- table(data$MaritalStatus, table(data$Attrition)
MaritalStatus MaritalStatus
#Ejecutamos la prueba Chi2 chisq.test(tab)
prueba Chi2 prueba Chi2
#calculando chi-crítico chi_critico <- qchisq(.05, df=2, lower.tail=FALSE) chi_critico
Nombre_de_la_figura Nombre_de_la_figura
Al obtener un estadístico chi2 de 130 con un chi-critico de 5.99, concluimos que existen diferencias sustanciales, lo que indica que la variable es significativa
Validación GráficaUna forma alternativa de validar la significancia de las variables categóricas (factores) con múltiples niveles es mediante un diagrama de mosaico. En estos diagramas, el área es directamente proporcional a la frecuencia de ocurrencia en la tabla, y debemos interpretarla de la siguiente manera: si obtenemos un diagrama muy “regular”, se indicaría que las dos variables no están relacionadas. La palabra “regular” debemos entenderla como que las proporciones se mantienen constantes. Por otro lado, si el diagrama es irregular, indicaría que algún factor subyacente está afectando la relación con la variable predictora y, por lo tanto, esta variable puede ser significativa para un modelo logístico.
Los siguientes diagramas de mosaico visualizan la relación entre dos variables. La figura 7a muestra independencia cuando el diagrama es regular; en cambio, figura 7b ) muestra un diagrama irregular, que demuestra que hay una relación.
Figura 8: Diagramas de mosaico para mostrar relacionamiento, variable no significativa (a)
Creación del autor: Alfonso PradoFigura 8: Diagramas de mosaico para mostrar relacionamiento, variable no significativa (a)
Creación del autor: Alfonso Prado
Figura 8: Diagramas de mosaico para mostrar relacionamiento, variable significativa (b)
Creación del autor: Alfonso PradoFigura 8: Diagramas de mosaico para mostrar relacionamiento, variable significativa (b)
Creación del autor: Alfonso PradoUn modelo logístico puede incluir tanto variables continuas como categóricas o nominales. De hecho, tanto glm como lm en R implementan por defecto algún tipo de codificación para variables nominales, pero en otros lenguajes, el analista debe preparar los datos con la codificación adecuada para su uso.
Aprende más
Para conocer más sobre Codificación de variables, puedes leer el siguiente artículo ¡Accede aquí!
La codificación por etiquetas es una conversión numérica pura de los niveles de una variable categórica". Si una variable categórica es un factor y tiene niveles establecidos, entonces la conversión numérica será el orden de los niveles. Sin embargo, hay que tener cuidado con la codificación por etiquetas en variables no ordenadas, ya que la mayoría de los modelos las tratarán como variables numéricas ordinales. Si una variable categórica está ordenada de forma natural, entonces esta codificación es una elección adecuada. En la siguiente figura, el valor de la codificación aparece entre corchetes.
Figura 9: Variable no apta para codificación por etiquetado(a)
Creación del autor Alfonso PradoFigura 9: Variable no apta para codificación por etiquetado(a)
Creación del autor Alfonso Prado
Figura 9: variable apta para codificación por etiquetado(b)
Creación del autor Alfonso PradoFigura 9: variable apta para codificación por etiquetado(b)
Creación del autor Alfonso PradoEsta codificación, es también conocida como variables “dummy” implementado en el paquete R caret. En primer lugar, a partir de una variable categórica X (que debe ser del tipo factor) con p niveles, se crean p variables nuevas y cada una de estas nuevas se asocia de forma individual a un elemento del conjunto Xi.
En segundo lugar, todas las variables nuevas toman el valor de 0, excepto aquella que representa el valor original del registro sin modificar, que tomará el valor 1. Siguiendo con nuestro dataset de ejemplo, consideramos la variable “Department”
Tabla 4: Codificación one-hot para variable categórica “Department”
Creación del autor Alfonso Prado> Tabla 4: Codificación one-hot para variable categórica “Department”
Creación del autor Alfonso PradoCodificación por One Cold para variables categóricas
Muy similar al anterior. La diferencia reside en que actúa de forma inversa: todas las variables son 1, excepto la asociada al valor que toma la variable categórica en cada observación. El vector de codificación contiene las nuevas variables cuyos valores son todos 1, excepto aquel cuyo valor coincide con la variable original.
Codificación por Rank-Hot para variables ordinales
Hay casos en los que queremos indicarle al modelo que cierta etiqueta es mejor que otra etiqueta. Por ejemplo, en el dataset del ejemplo la variable Education (nivel de educación), en este caso utilizar One-Hot no es ideal ya que esto elimina la estructura de clasificación presente en los datos. Necesitamos una forma de transmitir la importancia, en este caso se pretende indicar que el nivel educación es de al menos x .
Tabla 5:Etiquetado por grado
Creación del autor Alfonso PradoTabla 5:Etiquetado por grado
Creación del autor Alfonso Pradorequire(caret) levels(data$MaritalStatus)
Nombre_de_la_figura Nombre_de_la_figura
dv <- dummyVars(~MaritalStatus, data=data) trsf <- data.frame(predict(dv, newdata = data)) data_dv <- cbind(data, trsf) #Creamos el modelo glm(Attrition ~ MaritalStatus.Divorced + MaritalStatus.Single + MaritalStatus.Married, data=data_dv, family=binomial(link="logit"))
Nombre_de_la_figura Nombre_de_la_figura
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
En la presente clase revisaremos las distintas métricas que sirven para evaluar los modelos logísticos. Como veremos, existen varias métricas, y su uso y aplicabilidad dependerán de algunos factores y del propósito general de clasificación.
Un tema de particular importancia será el tratamiento de la data cuando las clases se hallan desbalanceadas, explicaremos los resultados de la métrica cuando esto ocurre, así como los mecanismos para compensar el desbalanceo.
Odds y log Odds
Las probabilidades (técnicamente, las probabilidades de éxito) se definen como la probabilidad de éxito/probabilidad de fracaso. Por lo tanto, la probabilidad de éxito (80 % de probabilidad de lluvia) tiene una probabilidad de fracaso (20 % de probabilidad de que no llueva); como ecuación (la "razón de probabilidades"), es 0,8/0,2 = 4.
Imputación
La imputación de datos es una técnica estadística que se utiliza para reemplazar valores faltantes o nulos en un conjunto de datos. En el análisis de datos y la ciencia de datos, el manejo de los datos faltantes es crucial, ya que pueden afectar significativamente los resultados de cualquier análisis. La imputación de datos tiene como objetivo proporcionar un conjunto de datos más completo, lo que permite un modelado y un análisis más precisos. Existen varios métodos para la imputación de datos, cada uno con sus fortalezas y debilidades, según la naturaleza de los datos y el contexto del análisis.
-
14 Métricas para medir bondad de modelos de clasificación
Antes de entrar en el análisis de las métricas para evaluar la bondad de los modelos es importante saber interpretar los coeficientes de las variables en este tipo de modelos.
Un tópico que llama la atención en regresiones logísticas es interpretar los coeficientes del modelo de regresión, debido a que están en la escala . Debemos tener cuidado de convertirlos antes de interpretar los términos de las variables originales, recordando la definición de logit.
Figura 1: Fórmula de logit
Creación del autor Alfonso PradoFigura 1: Fórmula de logit
Creación del autor Alfonso PradoEntonces la función exp(β0) representa las probabilidades de que la característica de éxito esté presente para un individuo x=0, es decir en la línea de base. Si hay múltiples predictores involucrados, todos deberían establecerse en 0 para esta interpretación.
La función exp(βi) representa el aumento multiplicativo en las probabilidades de éxito por cada aumento de 1 unidad en x. Si βi > 0 indica que es una relación positiva, si es negativo entonces el incremento de X decrementa la posibilidad de que se presente el evento.
Por ejemplo, de acuerdo con el modelo creado en la clase anterior el coeficiente de la variable “MaritalStatus.Single ” es 0.8421 , y su exp(0.8421) es 2.32. Esto debe interpretarse de la siguiente forma: Por cada unidad que aumenta la variable MaritalStatus.Single el odds (no el OR) de que se presente la renuncia aumenta en 2.32.
Figura 2: Modelo creado en la clase anterior
Creación de autor Alfonso PradoFigura 2: Modelo creado en la clase anterior
Creación de autor Alfonso Prado -
14.1 Matriz de confusión
Es importante mencionar que, para optimizar el rendimiento de cualquier modelo, deben primero realizarse actividades de limpieza de datos y preprocesamiento, lo que incluye la gestión de datos atípicos, transformaciones, normalización, entre otros.
Luego nos preguntamos ¿cómo podemos medir la efectividad de nuestro modelo en términos de eficiencia, rendimiento y precisión? Ahí entra la
matriz Confusión.
De acuerdo con Hilbe (2015), esta matriz es la medida del rendimiento para la clasificación y es ampliamente utilizada en el aprendizaje automático(ML). La matriz de confusión es un tipo especial de tabla de contingencia, con dos dimensiones ("real" y "predicha") y conjuntos idénticos de "clases" en ambas dimensiones (cada combinación de dimensión y clase es una variable en la tabla de confusión). El nombre proviene del hecho de que facilita ver si el sistema está confundiendo dos clases (es decir, etiquetando erróneamente una como otra). Generalmente, las tablas contienen la predicción en las filas y los valores actuales (observaciones) en las columnas, aunque hay autores que lo colocan al revés.
Figura 3: Matriz de Confusión
Creación del autor: Alfonso PradoFigura 3: Matriz de Confusión
Creación del autor: Alfonso PradoEn la tabla vamos a identificar entonces 4 valores:
- • Verdaderos positivos: Identificados como TP predicción positiva y, en realidad, es positivo.
- • Falsos positivos: Identificados como FP predicción positiva y, en realidad, es negativo.
- • Falsos negativos: Identificados como FN predicción negativa y, en realidad, es positivo.
- • Verdaderos negativos: Identificados como TN predicción negativo y, en realidad, es negativo.
-
14.2 Curvas Características de la Separabilidad
Basados en la matriz de confusión, podemos establecer algunos indicadores de la eficiencia del modelo:
Accuracy: Simplemente mide con qué frecuencia el clasificador hace la predicción correcta. Es la relación entre el número de predicciones correctas y el número total de predicciones, se utiliza cuando los verdaderos positivos y los verdaderos negativos son más importantes.
Sensibilidad: Calculada como el número de predicciones positivas correctas dividido por el número total de positivos reales (observaciones). Algunos autores la denominan recuperación (REC) o tasa de verdaderos positivos (TPR).
Especificidad: Calculada como el número de predicciones negativas correctas dividido por el número total de negativos. Algunos autores la denominan tasa negativa verdadera (TNR).
Tasa de Falsos Positivos (FPR): Se define como la relación entre falsos positivos y la suma de falsos positivos más verdaderos negativos. Es el inverso de la especificidad (1-especificidad).
Precisión: Representa la proporción de casos positivos que se predicen correctamente dividido para el total de casos positivos que se predicen. La diferencia entre sensibilidad y precisión radica en que la sensibilidad se calcula en base a los casos reales (observaciones) que son positivos, mientras que la precisión se calcula en base a las predicciones positivas.
Tabla 1: Fórmulas de las métricas derivadas de la tabla de confusión
Creación del autor Alfonso PradoTabla 1: Fórmulas de las métricas derivadas de la tabla de confusión
Creación del autor Alfonso PradoLa pregunta que nos hacemos es: ¿Cuál de las métricas deberíamos utilizar? Todos los indicadores anteriores sirven para verificar una parte del modelo; por ejemplo, qué tan bien se predicen los TP o TN, y funcionan bien cuando los datos están balanceados. Se considera que los datos están balanceados cuando la cantidad de casos de cada clase es similar, y desbalanceados cuando existen diferencias significativas.
Veamos un ejemplo: Asuma que tenemos 1000 casos positivos de los cuales el 90% son predichos correctamente y 10% incorrectamente. Asuma que tenemos 50 casos negativos de los cuales podemos predecir correctamente el 50%. De la Tabla 2 obtenemos: TPR=900/925 =0.97 =97% y TNR=25/125=0.2 =20% . Notamos que TPR está sobreestimado y TNR esta subestimado, este es el efecto que se obtiene cuando la data no está balanceada.
En estos casos, debemos recurrir a la métrica llamada F1 o a las curvas características de separabilidad, que resumen de mejor manera la eficiencia del modelo.
Figura 4: Fórmula de la métrica F1
Creación del autor Alfonso PradoFigura 4: Fórmula de la métrica F1
Creación del autor Alfonso PradoOtras alternativas posibles en caso de data desbalanceada consisten en previamente balancear la misma en forma manual, para luego entrenar el modelo. Existen dos técnicas para balancear conocidas como: Undersampling y Oversampling:
- a. El “Under-sampling” (submuestreo) funciona reduciendo el tamaño de la clase mayoritaria para que coincida con la clase menos prevalente.
- b. El “over-sampling” (sobre muestreo) se utiliza para aumentar el tamaño de muestras minoritarias. La técnica conocida como SMOTE (Synthetic Minory Over-sampling Technique) ofrece esta posibilidad en el paquete caret.
La siguiente figura explica el concepto
Figura 5: Sobre muestreo (a)
Creación del autor Alfonso Prado
Figura 5: Muestreo (a) y Submuestreo (b)
Creación del autor Alfonso PradoFigura 5: Submuestreo (b)
Creación del autor Alfonso PradoLa implementación del submuestreo es relativamente fácil; implica eliminar una cierta cantidad de observaciones. Pero en sobremuestreo se podría pensar en duplicar las observaciones de dicha clase, lo cual equilibrará la distribución de clases; sin embargo, esto no mejorará el rendimiento del modelo, ya que no le proporciona información adicional.
SMOTE.- Esta técnica selecciona los ejemplos minoritarios que están cerca en el espacio de características. En ML las “características” son sinónimo de variables; por lo tanto, el espacio de características es el espacio de valores de dicha variable. Dentro de este espacio, SMOTE crea una nueva muestra en algún lugar y le asigna el valor del vecino más cercano utilizando el algoritmo de KNN (K Nearest Neighbors). En otras palabras, el algoritmo crea un ejemplo aleatorio cuya clase se fija de acuerdo con el K vecino más cercano. Esta observación “sintética” se crea entre dos ejemplos en el espacio de características.
El uso de SMOTE tiene una desventaja, ya que no considera la clase mayoritaria al crear ejemplos sintéticos. En otras palabras, el algoritmo funciona bien cuando las clases están bien separadas; esto puede causar problemas cuando hay una superposición entre las clases.
Aprende más
Para conocer más sobre SMOTE, puedes leer el siguiente artículo ¡Accede aquí!
Veamos un ejemplo de implementación de SMOTE
#Validamos si la data esta balanceada
prop.table(table(data$Attrition))
Nombre_de_la_figura Nombre_de_la_figura
#Obviamente no está balanceada #En este caso utilizaremos la función downSample cuya sintaxis es: #downSample(x, y, list = FALSE, yname = "Class") #x=lista de variables predictoras #y=variable de clases , en este caso Attrition #list=FLASE indica que es un dataframe #yname= nombre de la etiqueta de clase set.seed(100) dataBalanceada <- caret::downSample(x=data %>% select(-Attrition) , y=data$Attrition, yname="Attrition") prop.table(table(dataBalanceada$Attrition))
#Ahora deberíamos repetir la creación y análisis de la matriz de confusión para asegurar que sensibilidad y especificidad están correctos
En última instancia, la mejor métrica es la que le conviene al negocio. Por ejemplo, suponga que obtenemos una sensibilidad=0,35 y la especifidad=0,90. Por tanto, este modelo mucho más específico que sensible. Esta es la situación que nos interesa cuando nuestro objetivo es evitar a toda costa los falsos positivos, que sería el caso en el cual, como conclusión del estudio, una empresa estuviera injustamente penalizando a un cliente.
Por el contrario, si los falsos positivos no nos preocupan tanto y lo que queremos evitar son los falsos negativos, nos interesa una mayor sensibilidad o recall.
Por ejemplo, no nos importa un falso positivo en una prueba de diabetes, ya que la prueba se repetirá sin duda. Sin embargo, no nos interesa que una persona diabética no diagnosticada no acceda rápidamente al tratamiento adecuado debido a un falso negativo.
Pero en la práctica, los modelos nunca son perfectos. Para ayudarnos a visualizar la bondad de los modelos recurrimos a la visualización mediante diagramas que permiten comparar dos métricas simultáneamente. Estas curvas permiten visualizar la separabilidad entre clases. Idealmente, se desea que las observaciones positivas sean predichas como positivas y lo mismo con las negativas.
Curva ROCUna curva ROC es un gráfico que muestra el rendimiento de un modelo de clasificación en todos los umbrales de clasificación. Esta curva usa dos métricas en sus ejes: la tasa de verdaderos positivos TPR (sensibilidad) y la tasa de falsos positivos FPR (1-especificidad).
En principio deseamos que la sensibilidad sea lo más grande posible, mientras el FPR sea lo más bajo posible. La gráfica resultante sería la figura 6(a).
En la medida que el modelo empieza a perder su capacidad de discriminar entre clases positivas y negativas, la curva empieza a acercarse a una diagonal.
Cuando llega a ser una diagonal es la peor situación, porque indica que el modelo no puede discriminar entre clases y, por lo tanto, no es utilizable.
Cuando la tasa de falsos positivos llega a ser igual a 1, el modelo en realidad está invirtiendo las clases. Significaría que el modelo predice una clase negativa como una clase positiva y viceversa, en cuyo caso la curva ROC se verá como en la figura 7(c). Dado que TPR y FPR tienen un valor máximo de 1, el área bajo la curva tendrá un valor de 1.
De acuerdo con Hilbe (2015), “Los valores de 0,5 a 0,65 tienen un poder predictivo bajo. Los valores de 0,65 a 0,80 tienen un valor predictivo moderado. Muchos modelos logísticos se ajustan a este rango. Los valores superiores a 0,8 e inferiores a 0,9 generalmente se consideran de alto poder predictivo”.
La curva se crea basado en un umbral del valor de la variable; para cada umbral escogido se calculan las dos métricas mencionadas y se grafican los puntos, que luego se unen por medio de una curva, dando como resultado la figura siguiente.
Figura 6: Casos extremos de la curva ROC -Modelo ideal(a)-
Creación del autor Alfonso PradoFigura 6: Casos extremos de la curva ROC -Modelo ideal(a)-
Creación del autor Alfonso Prado
Figura 6: Casos extremos de la curva ROC -Modelo sin capacidad de discriminación(b)-
Creación del autor Alfonso PradoFigura 6: Casos extremos de la curva ROC -Modelo sin capacidad de discriminación(b)-
Creación del autor Alfonso Prado
Figura 6: Casos extremos de la curva ROC -Modelo confunde las clases(c)-
Creación del autor Alfonso PradoFigura 6: Casos extremos de la curva ROC -Modelo confunde las clases(c)-
Creación del autor Alfonso Prado
Figura 7: Curva ROC de un modelo real
Creación del autor Alfonso PradoFigura 7: Curva ROC de un modelo real
Creación del autor Alfonso PradoA fin de obtener una métrica objetiva se estila calcular el área bajo la curva. De esta manera, pequeñas diferencias entre curvas de distintos modelos son fáciles de notar y comparar. Un modelo excelente tiene AUC cerca de 1, lo que significa que tiene una buena medida de separabilidad entre las clases. Un modelo pobre tiene un AUC cercano a 0.5, lo que significa que tiene la peor medida de separabilidad; esto es, no puede distinguir entre una clase y otra, y no es mejor que clasificar al azar. Medidas menores a 0.5 indicarían que los casos positivos se predicen como negativos y viceversa.
Curva PR sensibilidad vs precisiónLa curva PR es la gráfica resultante de relacionar la precisión y la sensibilidad (REC o TPR) de un modelo. Nos permite ver a partir de qué valor de sensibilidad obtenemos una degradación de la precisión.
Note que en realidad lo que está comparando es FP y FN, es decir, la diagonal secundaria. En un modelo perfecto sería aquel que pasa por el punto (1,1); por tanto, cuanto más se acerque a esa esquina superior derecha mejor es el comportamiento del modelo. Al igual que con la curva ROC, también se puede calcular el área bajo la curva.
Es preferible usar esta curva en vez de la curva ROC en casos en los que exista un desbalanceo en las clases, ya que la curva ROC puede dar una visión optimista del modelo debido a la dependencia de los falsos negativos que, en conjuntos con clases desbalanceadas, aumentará.
Figura 8:Curva precisión-sensibilidad
Creación del autor Alfonso PradoFigura 8:Curva precisión-sensibilidad
Creación del autor Alfonso PradoCuándo usar cada curva :
La curva ROC es Ideal para conjuntos de datos equilibrados donde las clases positivas y negativas tienen la misma importancia. Es útil cuando el objetivo es encontrar el equilibrio óptimo entre sensibilidad y especificidad.
La Curva de precisión-sensibilidad es más informativa para conjuntos de datos desequilibrados donde la clase positiva es poco frecuente o más importante. Es útil cuando el objetivo es maximizar la precisión de las predicciones positivas.
Las curvas ROC consideran tanto las clases positivas como las negativas, mientras que las curvas de precisión-sensibilidad se centran en la clase positiva y son más útiles en caso de data desbalanceada.
Mejores prácticas en la creación de modelos logísticosA continuación, presentamos un conjunto de mejores prácticas que puede ayudar a mejorar el rendimiento de un modelo:
- a. En la selección de variables elimine primero variables que no demuestran correlación o aquellas numéricas que tengan varianza 0 o cercana a 0.
- b. Si existen variables con NAs proceda con las que considere necesarias; sin embargo, tome en cuenta que las imputaciones podrían cambiar completamente la forma de los datos
- c. Para variables continuas que no presenten una buena distribución normal se puede utilizar una transformación logarítmica. Esto ayudará a que los datos no estén tan dispersos. Sin embargo, note que la transformación debe realizarse antes de cualquier operación de normalización, ya que esto podría llenar el dataset de NAs para los valores 0 o negativos. En este caso deberá utilizar Yeo-Johnson.
Aprende más
Para conocer más sobre Normalización Yeo-Johnsson, puedes leer el siguiente artículo ¡Accede aquí!
-
d. Estandarice los datos y luego aplique one-hot. One-Hot da como resultado que los datos estén más dispersos, lo cual muchos algoritmos pueden usar de manera eficiente. Si estandariza los datos primero, creará datos densos con los cuales los algoritmos se ejecutarán de manera menos eficiente.
- e. Lo mismo ocurre con la agrupación de categorías; primero haga los agregados y luego codifique con one-hot.
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
En esta clase abordaremos 2 temas
El primero está relacionado con nuevas métricas para medir la eficiencia de un modelo de predicción. En la clase anterior habíamos destacado el uso del estadístico R2 como una forma de medir la eficiencia basado en los residuos, sin embargo, esta no es la única métrica (ni siquiera la mejor), las métricas que veremos en esta clase se basan en la probabilidad de distribución de los resultados, para lo cual introduciremos una nueva función de regresión.
En la segunda parte veremos como en base a estas métricas básicas se han construido otras métricas que toman el nombre de estimadores que tratan de balancear el ajuste del modelo con la complejidad, por lo que nos proveen un análisis más completo, esta sección analizaremos algunos de estos estimadores.
Varianza insesgada
Un estimador insesgado de la varianza es aquel cuya distribución de estimaciones, al tomar múltiples muestras, tiene una media que es igual a la varianza poblacional real.
La insesgabilidad es una propiedad deseable en los estimadores, ya que garantiza que, en promedio, el estimador no se desvía sistemáticamente del valor verdadero del parámetro que se está estimandoLikelihood
En estadística, la función de verosimilitud (o simplemente, verosimilitud) es una función que permite realizar inferencias sobre los parámetros de un modelo estadístico, basándose en un conjunto de observaciones.
-
15.1 R² y R²a
De acuerdo a Szretter (2017) “Una vez que se tienen todas las variables, es de interés contar con un criterio numérico para resumir la bondad del ajuste que un modelo lineal con un cierto subconjunto de covariables da a la variable dependiente observada. A partir de este criterio se podrán ranquear los modelos y elegir un conjunto de unos pocos buenos candidatos para estudiar luego en detalle.”
En general en la regresión podemos establecer 3 valores para cada observación:
- • ŷ = el valor de la predicción de acuerdo al modelo
- • y̅ = el valor medio o esperado para las observaciones
- • y= el valor de la observación.
La figura 1 clarifica estos conceptos.
De acuerdo a lo indicado podemos calcular las siguientes sumas de cuadrados
- • SSTo =Suma de cuadrados totales, es el numerador de la varianza. Es la suma de los cuadrados de las desviaciones de todas las observaciones, yi, de su media.
- • SSReg = Suma de cuadrados regresión, le indica cuánto de la variación en la variable dependiente explicó su modelo.
- • SSRes = Suma de cuadrados de los residuos, es el valor que no es explicado por el modelo.
Figura 1: Relación entre SST, RSS, SSR
Creación del autor Alfonso PradoFigura 1: Relación entre SST, RSS, SSR
Creación del autor Alfonso PradoCuando tratamos de comparar modelos la primera aproximación sería mediante el R² obtenido para cada uno de los distintos modelos con distinta cantidad de covariables. La fórmula del coeficiente de determinación se muestra en la figura siguiente.
Figura 2: Coeficiente de determinación para un modelo con p covariables
Creación del autor Alfonso PradoFigura 2: Coeficiente de determinación para un modelo con p covariables
Creación del autor Alfonso PradoEn la medida en la que el modelo sea más eficiente, la suma de cuadrado de los residuos va a ser más pequeña, llegando a 0 cuando el modelo es perfecto, en cuyo caso obtendríamos un R² sería igual a 1.
Resulta que comparar modelos usando el criterio de elegir aquél cuyo R² sea lo más grande posible equivale a elegir aquel que tenga la menor suma de cuadrados de residuos SSRes (ya que la suma de cuadrados total SSTo no depende de las covariables del modelo ajustado y por eso permanece constante).
Para mejorar el R² obtenido los analistas tratan de incluir una mayor cantidad de covariables, sean estas apropiadas para ajustar los datos o no. Es por eso que el criterio no es identificar el modelo con mayor R² (ese será siempre el modelo con todas las covariables disponibles) sino encontrar el punto a partir del cual no tiene sentido agregar más variables ya que estas no inciden en un aumento importante del R² . Para encontrar este punto óptimo puede ser útil trazar un gráfico del R² en función de la cantidad de predictores. La siguiente figura explica el concepto.
Figura 3: R² obtenido en función de la cantidad de predictores
Creación del autor Alfonso Prado.Figura 3: R² obtenido en función de la cantidad de predictores
Creación del autor Alfonso Prado.R² Ajustado
Para entender esta métrica, es importante indicar los grados de libertad de cada una de las sumas de cuadrados mencionadas anteriormente, esto nos ayudará a calcular la media de las sumas de cuadrados, es una forma de hacer un promedio que pueda ser comparable de una suma de cuadrados a otra. La siguiente tabla presenta los valores.
Tabla 1: Grados de libertad para las sumas de cuadrados Tabla 1: Grados de libertad para las sumas de cuadrados
Como el R² no toma en cuenta el número de variables en el modelo de regresión, un criterio de decisión mucho más objetivo es calcular y comparar modelos por medio del R²a, para esto partimos de la formula de la figura 2 usando la media de las sumas de cuadrado. Entonces notamos que los grados de libertad del denominador no varía con respecto a la cantidad de coeficientes, mientras que el numerador si será afectado.
Por lo tanto, el R2a se calculará con la siguiente fórmula
Figura 4: Fórmula de R2a
Creación del autor Alfonso PradoFigura 4: Fórmula de R2a
Creación del autor Alfonso PradoDe acuerdo a Szretter (2017), entonces buscamos el subconjunto de p − 1 covariables que maximicen el R2a, o un subconjunto de muchas menos covariables para las cuales R2a el incremento sea tan pequeño que no justifique la inclusión de las covariables adicionales.
Veamos un ejemplo en la predicción de precios de vivienda
#Creamos 5 modelos basado en distintas variables house1 <- lm(valxSqFt ~ TUnits:GSqFt + Boro, data=housing) house2 <- lm(valxSqFt ~TUnits+ GSqFt +Boro , data=housing) house3 <- lm(valxSqFt ~TUnits* GSqFt +Boro , data=housing) house4 <- lm(valxSqFt ~class*Boro , data=housing) #De los cuales obtenemos la siguiente información [1] "house1" > summary(house1)$adj.r.squared [1] 0.5823141 > length(house1$coefficients) [1] 6 [1] "house2" > summary(house2)$adj.r.squared [1] 0.5999892 > length(house2$coefficients) [1] 7 [1] "house3" > summary(house3)$adj.r.squared [1] 0.6028864 > length(house3$coefficients) [1] 8 [1] "house4" > summary(house4)$adj.r.squared [1] 0.6093757 > length(house4$coefficients) [1] 20
Del ejercicio anterior podemos notar que en la medida la cantidad de variables involucradas en cada modelo va aumentando la métrica de R2a aumenta pero ya no es proporcional, en el modelo 4 tenemos 20 variables y el incremento del R2a es insignificante.
-
15.2 Likelihood
El término a veces se lo traduce como probabilidad o verosimilitud. En general se refiere a la probabilidad de que una muestra provenga de una distribución dada. Recordando el concepto la función PDF: Dada una distribución θ que tiene una media=μ y var= σ2, la probabilidad de un valor específico es dada por la función de densidad de dicha distribución.
El likelihood se calcula como el producto de densidades de las observaciones. Cuando se hace una predicción se esperaría que el valor predicho caiga dentro de la distribución de la variable Y, en la medida en la que la probabilidad difiera de la distribución θ entendemos que el modelo no es bueno. Por ejemplo, suponga que usted tiene una variable de respuesta Y que sigue una distribución gaussiana θ como en la figura 5, suponga que usted esta interesado en predecir cierto el valor de la variable basado en determinados características y al hacerlo encuentra que la salida Y tendría un probabilidad muy baja, obviamente deducimos que el modelo ha fallado en predecir adecuadamente.
Figura 5: Distribución de la variable Y y predicción
Creación del autor Alfonso PradoFigura 5: Distribución de la variable Y y predicción
Creación del autor Alfonso PradoPero, como la probabilidad PDF para un valor dado es generalmente baja, el producto de estas va a ser muy muy bajo, por lo que se estila hacer una transformación logarítmica conocida como el “log-likelihood”. Para esto recordemos una de las propiedades de los logaritmos.
Figura 6: Propiedad de la multiplicación de logaritmos
Creación del autor Alfonso PradoFigura 6: Propiedad de la multiplicación de logaritmos
Creación del autor Alfonso PradoSi se usa logaritmos naturales (base e) obtendríamos las fórmulas del likelihood como mostramos en la siguiente figura, donde π representa la función de producto de las probabilidades.
Figura 7: Fórmulas likelihood como producto (a) y log-likelihood como suma (b)
Creación del autor Alfonso PradoFigura 7: Fórmulas likelihood como producto (a) y log-likelihood como suma (b)
Creación del autor Alfonso PradoEn otras palabras, responde a la pregunta: "¿Cuál es la probabilidad de observar estos datos, dados estos parámetros?
Estimadores
Existen otros estimadores que nos ayudan a visualizar el mejor modelo basado en el total de las K covariables (el más grande posible) que incluya las covariables importantes de modo que en un modelo completo la estimación de la varianza del error sea insesgada.
Los principales estimadores son:
- a. AIC : Criterio de Akaike
- b. BIC : Criterio Bayesiano de Schwartz
- c. CP: Cp de Mallows
Todos intentan resolver este problema introduciendo un término de penalización para el número de parámetros en el modelo.
Desafortunadamente diferentes estimadores pueden recomendar diferentes modelos. Sin embargo, tomados en conjunto estos criterios permiten identificar un conjunto pequeño de modelos de regresión que pueden ser construidos a partir de las variables independientes relevadas. (Szretter, 2017)
AIC y BIC
Cuando se usa un modelo para representar el proceso que generó los datos, la representación casi nunca será exacta, por lo que se perderá cierta cantidad de información al usar el modelo para representar el proceso. De acuerdo a Faraway (2020) , AIC y BIC estiman la cantidad relativa de información perdida por un modelo dado, siendo el mejor aquel cuya pérdida de información sea la menor.
Al ajustar modelos, es posible aumentar la probabilidad agregando variables, pero hacerlo puede provocar un sobre ajuste. Los estimadores intentan resolver este problema introduciendo un término de penalización proporcional al número de variables en el modelo.
Entonces dado una familia de modelos Mα y una cantidad de observaciones, queremos saber cuál es el mejor modelo, donde α representa el número de predictor(es), ejemplo modelo 1 usa el primer predictor, modelo 2 usa los dos primeros predictores, etc. y donde los posibles predictores se ordenan por correlación con la variable de respuesta.
AIC y BIC parten del likelihood (L(θ)), pero como vemos en la siguiente tabla sus fórmulas son diferentes.
Tabla 2: Fórmulas matemáticas y funciones programáticas de AIC y BIC
Creación del autor Alfonso PradoTabla 2: Fórmulas matemáticas y funciones programáticas de AIC y BIC
Creación del autor Alfonso PradoDonde:
- L=likelihood p=# variables n=# muestras
- K=, la penalización por parámetro a utilizar; el valor predeterminado k = 2
Dado una cantidad de modelos con distinta cantidad predictores podemos obtener la siguiente gráfica.
Figura 8: Relación de los estimadores en función de predictores
Creación del autor Alfonso PradoFigura 8: Relación de los estimadores en función de predictores
Creación del autor Alfonso PradoAprende más
Para conocer más sobre Selección de modelos usando AIC - Presenta caso de estudio , puedes leer el siguiente artículo ¡Accede aquí!
Continuando con nuestro ejemplo de predicción de precios de vivienda
#Creamos 5 modelos basado en distintas variables housingmod1 <- lm(ValuePerSqFt ~ Units +SqFt +Boro , data=housing ) housingmod2 <- lm(ValuePerSqFt ~ Units * SqFt +Boro , data=housing ) housingmod3 <- lm(ValuePerSqFt ~ Units +SqFt *Boro + Class, data=housing ) housingmod4 <- lm(ValuePerSqFt ~ Units +SqFt +Boro + SqFt*Class , data=housing ) housingmod5 <- lm(ValuePerSqFt ~ Boro + Class , data=housing ) #Comparamos los modelos con los estimadores AIC(housingmod1, housingmod2,housingmod3,housingmod4,housingmod5) BIC (housingmod1, housingmod2,housingmod3,housingmod4,housingmod5) #Obtenemos los siguientes resultados #Que lo podemos graficar
Figura 9: Comparación de 5 modelos con estimadores AIC y BIC
Creación del autor Alfonso PradoFigura 9: Comparación de 5 modelos con estimadores AIC y BIC
Creación del autor Alfonso PradoNote que en este caso los 2 estimadores recomiendan el mismo modelo, aunque sus valores son distintos.
De la tabla de los estimadores vale la pena aclarar el termino df. En primer lugar, df significa grados de libertad, que en este caso se traduce a la cantidad de variables predictoras. Si se fija en la creación del modelo 1, este toma 3 variables Units +SqFt +Boro, las 2 primeras son variables contínuas y la tercera es una variable categórica que tiene 5 niveles, los cuales han sido automáticamente codificados mediante one-hot, por lo tanto glm ha creado 5 variables codificadas para la variable Boro. Además tenemos el intercept del modelo con el cual suma o considera que el modelo tiene 8 variables. En el modelo 2 tenemos, además de las anteriores, una variable que incluye los efectos combinados de Units:SqFt. Y así sucesivamente con el resto de modelos. Estos grados de libertad vienen a ser la cantidad de variables sobre las cuales se hará la penalización en ambos estimadores.
Selección automática
De los ejercicios presentados anteriormente entendemos que existen diferentes formas de evaluar la bondad de un modelo, sin embargo es interesante notar que esto ha requerido una gran cantidad de tiempo de parte del analista, por lo que es importante conocer de mecanismos automáticos que nos permitan ubicar los mejores modelos en una forma oportuna.
Para esto existen 4 enfoques:
- a. Todos los subconjuntos posibles
- b. Eliminación hacia atrás
- c. Selección hacia adelante incorporando variables
- d. Regresión de a pasos
Todos los conjuntos posibles
Si el dataset tiene p predictores teóricamente se podría crean R&supp modelos. Mediante este algoritmo crearemos efectivamente esta cantidad de modelos y evaluará mediante cualquier métrica descrita anteriormente cual es el subconjunto óptimo. Por supuesto, esto significa que se realizarán R&supp regresiones, lo cual podría ser problemático para valores de p > 10.
Eliminación hacia atrás
En este algoritmo, iniciamos con un modelo que contiene todas las covariables, y analizamos los valores t y pvalue para cada coeficiente, si todos los pvalues < α, entonces el modelo completo es el mejor, caso contrario elimina la variable que tenga el mayor pvalue, manteniendo las restantes en el modelo. Se evalúa las métricas del modelo. Si el retiro de dicha variable ha provocado un descenso considerable de la métrica entonces el último modelo sería el mejor.
Selección hacia adelante
Es el inverso del anterior, iniciamos con un modelo con una variable y vamos incorporando variables adicionales hasta el punto en el cual las ganancias en el valor de la métrica ya no son significativas. En este caso la métrica que se utiliza es el estadístico F que nos muestra la relación del modelo con respecto a otro que solo tiene el intercept. Recuerde que este estadístico debe compararse con un Fcritico y cuando esta relación supera el valor α el proceso se detiene
Paso a paso
Es una modificación del procedimiento hacia adelante, que elimina una variable en el modelo si ésta pierde significancia cuando se agregan otras variables. El algoritmo es similar al de selección hacia adelante excepto que, a cada paso, después de incorporar una variable, el procedimiento elimina del modelo las variables que ya no tienen significancia.
Es importante mencionar que no siempre el algoritmo hacia adelante y el algoritmo hacia atrás terminarán seleccionando el mismo modelo.
Veamos un ejemplo de movilidad con mtcars
# Algoritmo hacia adelante data(mtcars) minimo<- lm(mpg ~1 , data=mtcars) summary(minimo) step(minimo, direction="forward", scope=formula(completo)) Start: AIC=115.94 mpg ~ 1 Step: AIC=73.22 mpg ~ wt Step: AIC=63.2 mpg ~ wt + cyl Step: AIC=62.66 mpg ~ wt + cyl + hp #Veamos algoritmo hacia atrás completo <- lm(mpg ~. , data=mtcars) summary(completo) step (completo, direction="backward") Start: AIC=70.9 mpg ~ cyl + disp + hp + drat + wt + qsec + vs + am + gear + carb Step: AIC=68.92 mpg ~ disp + hp + drat + wt + qsec + vs + am + gear + carb Step: AIC=66.97 mpg ~ disp + hp + drat + wt + qsec + am + gear + carb Step: AIC=65.12 mpg ~ disp + hp + drat + wt + qsec + am + gear Step: AIC=62.16 mpg ~ disp + hp + wt + qsec + am
Aprende más
Para conocer más sobre Métodos paso a paso, puedes leer el siguiente artículo ¡Accede aquí!
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
-
-
Introducción
El primero está relacionado con nuevas métricas para medir la eficiencia de un modelo de predicción. En la clase anterior, habíamos destacado el uso del estadístico R² como una forma de medir la eficiencia basada en los residuos; sin embargo, esta no es la única métrica (ni siquiera la mejor). Las métricas que veremos en esta clase se basan en la probabilidad de distribución de los resultados. Para ello, introduciremos una nueva función de regresión.
El segundo tema trata sobre la estimación del mejor modelo basándose en la validación cruzada. Cuando ajustamos un modelo, siempre estaremos sujetos a una muestra , pero no podemos asegurar que dicha muestra sea la mejor representación de la población. Por lo tanto, el uso de estos mecanismos de validación cruzada nos proporciona una visión más amplia del comportamiento del modelo con múltiples muestras independientes.
Distribución chi-cuadrado
Las distribuciones chi-cuadrado (Χ2) son una familia de distribuciones de probabilidad continuas. Se utilizan ampliamente en pruebas de hipótesis, incluyendo la prueba de bondad de ajuste chi-cuadrado y la prueba de independencia chi-cuadrado.
Cp de Mallows
Es un estimador que ayuda a alcanzar un equilibrio importante con el número de predictores en el modelo. El Cp de Mallows compara la precisión y el sesgo del modelo completo con modelos que incluyen un subconjunto de los predictores.
-
Funciones de comparación de modelos
Para entender la presente clase debemos profundizar en los siguientes conceptos vistos en clases anteriores. Específicamente, habíamos tratado el concepto del estadístico R2, como una medida de la bondad del modelo.
Supongamos por un momento que cada punto ŷi estuviera muy cerca de la media y̅; esto significaría que cada yi no dependería de la variación de xᵢ, y que tampoco habría mucho error aleatorio (ε) en el valor. Dado que esperamos que esto no sea así, entendemos cuánto contribuyen la predicción de xi y el error aleatorio a yᵢ. En particular, observemos la distancia entre yi y la media ŷi. Escribiremos esta diferencia como SSTot.
En particular, el residuo se define como yi − ŷi, que es la distancia desde el punto de datos original hasta el valor predicho en la línea de regresión. Se puede considerar como el error restante después de que el modelo haya realizado su trabajo. Esta diferencia se muestra gráficamente en la figura siguiente.
Figura 1: Relación entre SSTo, SSres, SSReg
Creación del autor Alfonso PradoFigura 1: Relación entre SSTo, SSres, SSReg
Creación del autor Alfonso PradoDe la figura podemos deducir que para cada punto i (y - y̅) =( ŷ - y̅) + (y - ŷ). El primer término del lado derecho puede entenderse como el valor explicado por el modelo , mientras que el segundo término puede entenderse como un valor que no es explicado por el modelo o el error cometido por el modelo. Si sumamos todas las diferencias y las elevamos al cuadrado (para evitar el neteo de valores positivos y negativos), obtenemos la fórmula de la figura 2a y poniendo la misma en relación con SSto la figura 2b.
Figura 2: Fórmula de regresión (a) y en función de SSto
Creación del autor Alfonso PradoFigura 2: Fórmula de regresión (a) y en función de SSto
Creación del autor Alfonso PradoPero SSreg/SSTo es precisamente la definición de R² o coeficiente de determinación mencionado en clases anteriores. Aquí vemos por qué R² puede interpretarse como la fracción de variabilidad en los datos que explica el modelo. Por lo tanto, ahora tenemos una definición distinta de qué es R²; en realidad, representa cuánto de la variable de respuesta está explicada por las predictoras y cuánto no. Cuando utilizamos el algoritmo de mínimos cuadrados ordinarios (MCO), lo que este trata de obtener son los coeficientes que minimizan el segundo componente (SSres/SSTo).
Por otro lado, en los modelos lineales generalizables (GLM) su métrica principal para explicar la relación entre variables predictoras y de respuesta es conocida como “deviance”, la desviación es una medida de la bondad del ajuste, cuanto menor sea la desviación, mejor será el ajuste. Más específicamente podemos decir que si, para un modelo GLM en particular, denotamos Lm como el máximo likelihood (o verosimilitud) alcanzable bajo este modelo, y a Ls como el likelihood del “modelo saturado" (que se define como el modelo perfecto cuya predicción se ajusta exactamente a las observaciones), entonces el deviance residual se calcularía como el doble negativo del logaritmo de la relación entre Lm y Ls . Y generalizamos diciendo que este modelo también tiene la máxima verosimilitud alcanzable entre todos los modelos posibles dentro del marco GLM.
Figura 3: Fórmula de desviación en glm
Creación del autor: Alfonso PradoFigura 3: Fórmula de desviación en glm
Creación del autor: Alfonso PradoEntonces la desviación puede verse como una generalización de la suma de cuadrados residuales de los modelos lineales.
Por otro lado, respecto a anova, habíamos indicado que existen 2 tipos de pruebas en las que usamos este concepto. La prueba conocida como anova de 1 vía cuya función es aov(), la cual nos permite contestar la siguiente pregunta: ¿La varianza entre las medias de dos poblaciones es significativamente diferente?", y la segunda que, es de nuestro interés, es la función anova() que nos permite calcular la tabla de análisis de varianza (o desviación) para un objeto de la clase lm o glm. A continuación, presentamos la sintaxis de anova.
Figura 4: Sintaxis de la función anova
Creación de autor Alfonso PradoFigura 4: Sintaxis de la función anova
Creación de autor Alfonso PradoEn la función anova(), al especificar un solo objeto, se obtiene una tabla de análisis de varianza secuencial para ese ajuste.
Por ejemplo, en clase anteriores habíamos generado un modelo para explicar los valores de viviendas en NY en función la cantidad de unidades habitacionales, los pies cuadrados de la misma y el vecindario (valxSqFt ~TUnits+ GSqFt +Boro ). Aplicando anova() obtenemos la siguientes información:
Cada fila de la tabla corresponderá a un término del modelo, más una fila adicional en la parte superior para el modelo nulo (solo considera intersección). Df (grados de libertad): Los grados de libertad asociados a cada término, normalmente 1 en caso de variable numéricas y numero de niveles -1 en caso de variable nominales. Deviance: La desviación, una medida del ajuste del modelo a los datos para cada término. DF residual (grados de libertad residuales): Los grados de libertad residuales tras añadir el término.
Deviance Residual (desviación residual): La desviación residual tras añadir el término.
Figura 5: Anova de 1 modelo
Creación de autor: Alfonso PradoFigura 5: Anova de 1 modelo
Creación de autor: Alfonso PradoEs decir, las reducciones en la suma de cuadrados residuales a medida que se añade cada término de la fórmula (variables predictoras) y se presentan como las filas de la tabla, por último, presenta la suma de cuadrados residuales. Esa tabla nos permite analizar cuál es el efecto de ir aumentando cada predictora, específicamente, sobre el ejemplo, vemos que al incluir la variable Boro, el deviance residual cae de 132.5 a 64, indicado que esta variable ha mejorado la calidad del modelo.
-
16.1 ANOVA
Si se especifica más de un objeto como argumento en la función anova(), esta permite comparar distintos modelos. La tabla incluye los estadísticos usados en la prueba. Normalmente, la prueba F es la más adecuada, ya que compara la media cuadrática de una fila con la suma de cuadrados residuales del modelo más grande considerado, pero opcionalmente podrían especificarse otros como y .
La prueba F se construye a partir de dos tipos de cantidades: sumas de cuadrados (SS) y grados de libertad (gl). Estos dos elementos definen un valor cuadrático medio (MS = SS/gl), y obtenemos nuestro estadístico F contrastando el valor de MS asociado con "todo lo demás" que serían los residuos. Esto nos permitirá establecer un marco para comparar modelos diferentes. En otras palabras, lo que queremos hacer es averiguar cómo describir el valor de SS asociado con la diferencia entre dos modelos.
Es importante entender cómo anova trabaja para comprender su salida. La función está hecha para comparar distintos modelos, pero estos deben ser incrementales (algunos autores lo llaman modelos anidados). Por ejemplo, el modelo 1 tendría 2 predictoras, el modelo 2 debe tener las mismas variables del modelo 1 más un incremento de variable(s). Entonces podemos decir que el modelo 1 está anidado dentro del segundo. Para cada modelo va a calcular los grados de libertad, que en este caso representa la cantidad de variables -1.
En el caso de comparar 2 modelos podemos despejar los SSreg para cada modelo de la siguiente forma SSregM0=SSTo−SSresM0 y SSregM1=SSTo−SSresM1 y su diferencia como SSΔ= SSregM0 - SSregM1 que sería igual a SSresM0 - SSresM1 . Ahora estos valores tenemos que ponerlos en función de los grados de libertad de cada modelo (también llamado la media de las sumas de cuadrados), entonces para el primer modelo MSm1= SSResm1/dfm1 y para el modelo completo MSΔ= SSΔ/dfΔ. Finalmente obtenemos el estadístico F de la siguiente forma:
Figura 6: Estadístico F (Fratio) para el modelo 1
Creación de autor Alfonso PradoFigura 6: Estadístico F (Fratio) para el modelo 1
Creación de autor Alfonso PradoVeamos un ejemplo para la comparación de los modelos de viviendas
#Creamos los modelos housingmod1 <- lm(ValuePerSqFt ~ Units , data=housing ) housingmod2 <- lm(ValuePerSqFt ~ Units +SqFt , data=housing ) housingmod3 <- lm(ValuePerSqFt ~ Units +SqFt + Boro , data=housing ) housingmod4 <- lm(ValuePerSqFt ~ Units +SqFt +Boro + Class , data=housing ) anova(housingmod1, housingmod2,housingmod3,housingmod4)
Modelo de viviendas Modelo de viviendas
La tabla tiene una fila para los grados de libertad residuales y la suma de cuadrados de cada modelo. Para todos los modelos, excepto el primero, también se proporciona la diferencia en los grados de libertad con respecto al modelo 1 y la suma de cuadrados obtenida. Esto solo tiene sentido estadístico si los modelos están anidados. Es habitual enumerar los modelos de menor a mayor, pero esto queda a criterio del analista.
Anova es, en realidad, una prueba de hipótesis cuyo H₀ indica que los nuevos coeficientes (con respecto al modelo anterior) son 0, y H₁, que al menos un coeficiente es distinto de 0. Si los nuevos coeficientes son 0, entonces entendemos que las correspondientes variables no tienen valor de predicción, y ANOVA recomendará el modelo más sencillo. En principio, si los nuevos coeficientes mejoran el RSS, ANOVA preferirá el modelo más complejo (mayor df), pero si no hay mejora, ANOVA seleccionará el modelo más simple.
Prueba de Significancia:
El ANOVA también puede comprobar la significancia de términos individuales o grupos de términos dentro de un modelo, examinando el cambio en la desviación estándar al eliminarlos. Esto se realiza comparando el estadístico F calculado con un valor crítico o valor p obtenido de la distribución F. Si el valor p es inferior al nivel de significancia (normalmente 0.05), se rechaza la hipótesis nula, y las diferencias entre las medias de los grupos se consideran estadísticamente significativas.
Prueba de razón de verosimilitud:
El análisis de la desviación estándar está estrechamente relacionado con la prueba de razón de likelihood, una prueba estadística que se utiliza para comparar el ajuste de dos modelos anidados.
Veamos un ejemplo
#Si queremos extraer el log-likelihood de cada modelo y los grados de libertad podemos usar: ll1 <- logLik(housingmod1)
log-likelihood log-likelihood
ll2 <- logLik(housingmod2)
Nombre_de_la_figura Nombre_de_la_figura
#En base a lo anterior podemos obtener la diferencia del log-likelihood (teststat <- -2 * (as.numeric(ll1)-as.numeric(ll2)))
Nombre_de_la_figura Nombre_de_la_figura
# Con un nivel de significancia de 0,05, podríamos rechazar la hipótesis #nula. Esto significa que deberíamos usar el modelo complejo en lugar del #modelo anidado # Por último podemos hace la prueba de razón de likelihood lrtest(housingmod1, housingmod2)
Nombre_de_la_figura Nombre_de_la_figura
#Rechazaremos la hipótesis nula con un nivel de significancia de 0,05. Sin embargo, si fijáramos el nivel de significancia en 0,01, no rechazaríamos la hipótesis nula. Esto indica que el modelo complejo es significativamente más preciso con un alfa de 0,05, pero está relativamente cerca del umbral en el que utilizaríamos el modelo anidado.
Aprende más
Para conocer más sobre ANOVA para comparar modelos, puedes leer el siguiente artículo ¡Accede aquí!
-
16.2 Validación Cruzada
En clases anteriores habíamos revisado la técnica de validación cruzada como un mecanismo para prevenir el sobreajuste. Pero la validación cruzada sirve principalmente como una medida de la bondad del modelo mediante el entrenamiento del modelo con distintos subconjuntos de datos.
Para empezar, diremos que la validación cruzada es una técnica de re-muestreo, esto quiere decir que partiendo de un dataset grande puedo generar múltiples dataset pequeños.
Para propósito de evitar el sobreajuste habíamos indicado la necesidad de tener 2 subconjuntos conocidos como data de entrenamiento y prueba. Pero para propósito de la evaluación de la bondad del modelo entrenaremos el modelo usando varios subconjuntos de datos y los modelos resultantes se evalúan posteriormente en otros subconjuntos, que no se utilizaron durante el entrenamiento. El promedio del rendimiento que alcanzan los modelos con estos subconjuntos es una estimación del rendimiento del modelo final.
Existen muchas técnicas de re-muestreo, a continuación, algunas de las más comunes.
- a. Re-muestreo simple: Es el método más sencillo de validación consiste en repartir aleatoriamente las observaciones disponibles en dos grupos, uno se emplea para entrenar al modelo y otro para evaluarlo. La estimación del error es altamente variable dependiendo de qué observaciones se incluyan como conjunto de entrenamiento y cuáles como conjunto de validación. Al excluir parte de las observaciones disponibles como datos de entrenamiento, se dispone de menos información con la que entrenar el modelo y, por lo tanto, se reduce su capacidad.
- b. Dejar uno afuera (LOOCV): Es un método iterativo que se inicia empleando como conjunto de entrenamiento todas las observaciones disponibles excepto una, que se excluye para emplearla como validación. Si se emplea una única observación para calcular el error, este varía mucho dependiendo de qué observación se haya seleccionado. El proceso requiere que el modelo sea reajustado y validado tantas veces como observaciones disponibles (n) lo que en algunos casos puede ser muy complicado.
- c. Re-muestreo aleatorio k-fold Consiste en dividir los datos de forma aleatoria en k grupos de aproximadamente el mismo tamaño, k-1 grupos se emplean para entrenar el modelo y uno de los grupos se emplea como validación. Este proceso se repite k veces utilizando un grupo distinto como validación en cada iteración. El proceso genera k estimaciones del error cuyo promedio se emplea como estimación final. En la práctica valores de k entre 5 y 10 son recomendados, lo cual no implica un costo computacional alto. La principal ventaja de K-fold CV es que consigue una estimación precisa del error de test gracias a un mejor balance entre bias y varianza
Realizar el re-muestreo, entrenar el modelo y probar con otro conjunto parecería una ardua labor, pero R lo hace muy fácil a través del uso de la función cv.glm() del paquete boot. Esta función retorna una lista con algunos valores entre los cuales se halla el estadístico delta. Delta es un vector de longitud dos. El primer componente es el error de predicción normal y el segundo componente es un poco más difícil de entender. Recuerde que el modelo se creó con la data de entrenamiento menos 1 fold .
Se requiere un ajuste por este motivo y eso es el segundo componente (error de cross validación ajustado por efecto del k-1).
Con la métrica delta podemos comparar modelos y obtener el gráfico de la figura siguiente. Preferimos el modelo con el menor rango de validación cruzada.
Figura 7: Comparación de modelos usado validación cruzada
Creación del autor Alfonso PradoFigura 7: Comparación de modelos usado validación cruzada
Creación del autor Alfonso PradoAprende más
Para conocer más sobre Cross validación , puedes leer el siguiente artículo ¡Accede aquí!
-
-
-
Actividades
-
Hacer un envío
-
Hacer intentos: 1
-
Hacer intentos: 1
-
-
-
Resultado de aprendizaje 2
-
Ruta Académica - RDA2 - T1 TareaNo disponible hasta que cualquiera de:
- Su Dirección de correo es oahernandezv@puce.edu.ec
- Su Dirección de correo es jehernandezz@puce.edu.ec
- Su Dirección de correo es ksmerchan@puce.edu.ec
- Su Dirección de correo es jamoreirar@puce.edu.ec ...
- Su Dirección de correo es mariverata@puce.edu.ec
- Su Dirección de correo es ijsimbana@puce.edu.ec
- Su Dirección de correo es jazambranodo@puce.edu.ec
- Mostrar más
-
Ruta Académica - RDA2 - T2 TareaNo disponible hasta que cualquiera de:
- Su Dirección de correo es oahernandezv@puce.edu.ec
- Su Dirección de correo es jehernandezz@puce.edu.ec
- Su Dirección de correo es ksmerchan@puce.edu.ec
- Su Dirección de correo es jamoreirar@puce.edu.ec ...
- Su Dirección de correo es mariverata@puce.edu.ec
- Su Dirección de correo es ijsimbana@puce.edu.ec
- Su Dirección de correo es jazambranodo@puce.edu.ec
- Mostrar más
-
-
-
Enlaces de Sesiones
-
Enlaces de Grabaciones
-
Material extra
-
-
-
Bienvenidos a PUCE CAFÉ: Un Espacio Abierto para la Participación y Reflexión
PUCE CAFÉ es un espacio diseñado para fomentar la conversación abierta y el intercambio de ideas entre los participantes del aula virtual. Aquí, les invitamos a reflexionar sobre los temas abordados, plantear preguntas, y compartir inquietudes sobre los contenidos trabajados.
Este es el lugar perfecto para aclarar dudas, profundizar en conceptos y mejorar la comprensión de los temas. Pueden discutir aspectos como la incorporación de multimedia en Moodle, la organización y categorización de contenidos, y las mejores prácticas para mejorar la accesibilidad y la experiencia de usuario en entornos de aprendizaje virtual.
Recuerden, no existen preguntas incorrectas; cada aporte, ya sea una pregunta o comentario, contribuye a enriquecer la experiencia de aprendizaje colectiva. Los animamos a participar activamente, ya que, además de contar con nuestro apoyo, también pueden aprender de los conocimientos y experiencias compartidas por sus compañeros.
¡Esperamos sus preguntas y comentarios para seguir construyendo juntos este proceso de aprendizaje!
-
-
-
Descargar el contenido de la Clase 1
Descargar el contenido de la Clase 2
Descargar el contenido de la Clase 3
Descargar el contenido de la Clase 4
Descargar el contenido de la Clase 5
Descargar el contenido de la Clase 6
Descargar el contenido de la Clase 7
Descargar el contenido de la Clase 8
Descargar el contenido de la Clase 9
Descargar el contenido de la Clase 10
Descargar el contenido de la Clase 11
Descargar el contenido de la Clase 12
Descargar el contenido de la Clase 13
Descargar el contenido de la Clase 14
Descargar el contenido de la Clase 15
Descargar el contenido de la Clase 16
-
-
-
SERIES TEMPORALESConocida también como serie cronológica. Es la sucesión de observaciones cuantitativas ordenadas en el tiempo de un fenómeno. Los datos tienen un orden que no es posible variar. La información puede ser mensual, trimestral, anual o de cualquier otro intervalo temporal.VARIABLE ALEATORIAConocida también como variable estocástica o probabilística. Es la característica considerada en un experimento aleatorio cuyo valor de ocurrencia solo puede saberse con exactitud una vez observado.
-
CORRELOGRAMAEs un gráfico que permite apreciar las autocorrelaciones r₁, r₂, ..., rₖ mediante el cual se identifican si los datos de una serie de tiempo tienen las siguientes características: estacionalidad, aleatoriedad, tendencia y estacionariedad.PRUEBA CHI CUADRADODe acuerdo con Ramírez-Alan (2016), “El test Χ² considera la hipótesis nula (H₀) de que las variables son independientes. Si esto es verdad, la frecuencia de ocurrencia debería estar dada por la cantidad de casos totales multiplicada por la probabilidad esperada”.
En el ejemplo anterior, si la probabilidad de compra es igual para los 3 niveles socioeconómicos (πᵢⱼ = 33%), entonces si se han vendido 1000 ítems, estos deberían estar distribuidos en las 3 categorías (n*πᵢⱼ = 1000*0.33), valor conocido como μᵢⱼ.
Pero si Hₐ está en lo correcto, va a existir una diferencia entre la frecuencia observada (ηᵢⱼ) y la esperada (μᵢⱼ), indicando que existe algún fenómeno por detrás que influencia la frecuencia observada. La prueba Χ² calcula esta diferencia de la siguiente forma
-
ProbabilidadProbabilidad significa posibilidad. Es una rama de las matemáticas que estudia la ocurrencia de un evento aleatorio. El valor se expresa de cero a uno. La probabilidad se ha introducido en las matemáticas para predecir la probabilidad de que ocurran eventos. El significado de probabilidad es básicamente el grado en el que es probable que algo suceda. Esta es la teoría básica de la probabilidad, que también se utiliza en la distribución de probabilidad, donde aprenderá la posibilidad de resultados para un experimento aleatorio. Para encontrar la probabilidad de que ocurra un solo evento, primero debemos saber el número total de resultados posibles.Probabilidad acumulativaLa probabilidad acumulada se refiere a la probabilidad de que el valor de una variable aleatoria se encuentre dentro de un rango determinado. Por ejemplo:
Pr(a ≤ X ≤ b)
Donde X es una variable aleatoria y a y b son los límites del rango. Con frecuencia, se utiliza para calcular la probabilidad de que una variable aleatoria sea menor o igual a un valor especificado:
Pr(X ≤ b)Probabilidad clásica (a-priori)La probabilidad a priori, también conocida como probabilidad clásica, es una probabilidad que se deduce del razonamiento formal. En otras palabras, la probabilidad a priori se deriva del examen lógico de un evento. La probabilidad a priori no varía de persona a persona (como lo haría una probabilidad subjetiva) y es una probabilidad objetiva.Probabilidad condicionalLas probabilidades condicionales se escriben como P(A|B), que puede leerse como "la probabilidad de que A ocurra DADO que B ha ocurrido". Si conocemos probabilidades como P(A), P(B) y P(A|B), podemos hallar otras probabilidades como P(B|A).Probabilidad totalLa regla de probabilidad total (también conocida como ley de probabilidad total) es una regla fundamental en estadística relacionada con las probabilidades condicionales y marginales. La regla establece que, si se desconoce la probabilidad de un evento, se puede calcular utilizando las probabilidades conocidas de varios eventos distintos.Teorema de BayesEl teorema de Bayes es una fórmula matemática sencilla que se utiliza para calcular probabilidades condicionales. Ocupa un lugar destacado en los enfoques subjetivistas o bayesianos de la epistemología, la estadística y la lógica inductiva. Los subjetivistas, que sostienen que la creencia racional está regida por las leyes de la probabilidad, se apoyan en gran medida en las probabilidades condicionales en sus teorías de la evidencia y sus modelos de aprendizaje empírico.
El teorema de Bayes es fundamental para estas empresas, tanto porque simplifica el cálculo de las probabilidades condicionales como porque aclara características significativas de la posición subjetivista. De hecho, la idea central del teorema —que una hipótesis se confirma por cualquier conjunto de datos que su verdad haga probable— es la piedra angular de toda la metodología subjetivista. -
Distribución NormalLlamada también como distribución de Gauss, es la distribución de probabilidad más utilizada en estadística y teoría de probabilidad. Esto se debe a dos razones:
- Su función de densidad es simétrica y con forma de campana lo que favorece su aplicación como modelo a gran número de variables.
- Es además límite de otras distribuciones y aparece relacionada con resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas.AsimetríaEs la falta de simetría entre los datos de una distribución. El concepto de asimetría se refiere a si la curva que forman los valores de la serie presenta la misma forma a la izquierda y derecha de un valor central (media aritmética). -
Inferencia estadísticaLa inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cuál es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.Intervalo de confianzaEl intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable. Esta «alta probabilidad» se ha establecido por consenso en 95%. Así, un intervalo de confianza de 95% nos indica que dentro del rango dado se encuentra el valor real de un parámetro con 95% de certeza.
-
Distribución BernoulliLa distribución de Bernoulli es una distribución discreta que está relacionada con muchas distribuciones, tales como la distribución binomial, geométrica y binomial negativa. La distribución de Bernoulli representa el resultado de 1 ensayo. Las secuencias de ensayos de Bernoulli independientes generan las demás distribuciones: la distribución binomial modela el número de éxitos en n ensayos, la distribución geométrica modela el número de fallas antes del primer éxito y la distribución binomial negativa modela el número de fallas antes del éxito xésimo.EnsayosPiense en los ensayos como repeticiones de un experimento. La letra n denota el número de ensayos. Solo hay dos resultados posibles, llamados "éxito" y "fracaso", para cada ensayo. La letra p denota la probabilidad de éxito en un ensayo y q denota la probabilidad de fracaso en un ensayo, cumpliéndose que: p + q = 1.
-
PMFUna función de probabilidad o función de masa de probabilidad es una función que devuelve la probabilidad de que una variable aleatoria discreta sea exactamente igual a algún valor. Es una función que asocia a cada punto de su espacio muestral X la probabilidad de que esta lo asuma.Proceso de PoissonSea X(t) el número de ocurrencias del evento con el tiempo (el proceso); entonces X(t) consiste en funciones de valores enteros no-decrecientes. La probabilidad de que sucedan exactamente k eventos en el tiempo t es:
-
Re-muestreoLas técnicas de remuestreo son métodos para crear nuevas muestras de datos a partir de un conjunto de datos existente mediante el uso de selección aleatoria o manipulación. La idea es imitar el proceso de muestreo de la población de interés, sin hacer suposiciones sobre su distribución o parámetros.Grados de LibertadEn la estadística inferencial, el término grados de libertad se define normalmente como el número de observaciones que son libres de variar, dada una o más restricciones matemáticas, en un conjunto de valores utilizados para estimar alguna característica de la población.
Dicho de otra manera, los grados de libertad son el número de observaciones independientes menos el número de restricciones asociado a esas observaciones. -
ERRORES TIPO I Y TIPO IIEn la teoría de decisiones, es el error TIPO I es el que se comete al rechazar la hipótesis nula H 0, cuando es verdadera.
El error tipo II, es el error que se comete al aceptar la hipótesis nula H 0 cuando es falsa.REGIÓN DE ACEPTACIÓN y RECHAZOEs la región formada por el conjunto de valores con los cuales decidimos aceptar la hipótesis nula, el área de rechazo conocida también como región crítica, está formada por el conjunto de valores con los cuales se rechaza la hipótesis nula. -
Distribución gammaLa distribución de gamma es una distribución de probabilidad continua que se utiliza para modelar el tiempo de espera hasta que ocurran un número específico de eventos. Es una distribución de dos parámetros, lo que significa que se requiere dos parámetros para definir completamente la distribución. Los dos parámetros son el parámetro de forma, denotado por alfa (α) y el parámetro de escala, denotado por beta (β).El parámetro de forma controla la forma de la distribución, mientras que el parámetro de escala controla la propagación de la distribución.Factores y nivelesUn factor es una variable categórica con un número finito de valores o niveles. En R, los factores se utilizan habitualmente para realizar clasificaciones de los datos, estableciendo su pertenencia a los grupos o categorías determinados por los niveles del factor.
-
INTERVALO DE CONFIANZAConocido también como límites de confianza. Es un rango de valores en el cual se encontraría el valor del parámetro, con una probabilidad determinada.
Generalmente se construye intervalos de confianza con 95% de probabilidadANALISIS DE RESIDUOSEn el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión. -
COEFICIENTE DE DETERMINACIÓN AJUSTADO r^2El R cuadrado ajustado es una versión modificada del R cuadrado que tiene en cuenta los predictores que no son significativos en un modelo de regresión. En otras palabras, el R cuadrado ajustado muestra si la adición de predictores adicionales mejora o no un modelo de regresión. El coeficiente de determinación mide la proximidad del ajuste de la ecuación de regresión de la muestra a los valores observados de la variable dependiente.DIAGRAMA DE CAJASConocido también como BOXPLOT. Es un importante gráfico del análisis exploratorio de datos. Al igual que el histograma, permite tener una idea visual de la distribución de los datos. Permite determinar si hay simetría, ver el grado de variabilidad existente y detectar los "outliers" (datos muy diferentes al conjunto de información), es decir la existencia de posibles datos discordantes. Además, el Boxplot es bien útil para comparar grupos. Es un diagrama que muestra la distancia en que se encuentran los datos y cómo están distribuidos equitativamente.SUMA DE CUADRADOS DE RESIDUOSLa suma de cuadrados residuales , también conocida como la suma de los residuos al cuadrado o la suma de la estimación al cuadrado de los errores , es la suma de los cuadrados de los residuos (desviaciones predichas de los valores empíricos reales de los datos) . Es una medida de la discrepancia entre los datos y un modelo de estimación. Un pequeño SSRes indica un ajuste ajustado del modelo a los datos. Se utiliza como criterio de optimización en la selección de parámetros y la selección de modelos.
En el contexto de ANOVA este estadístico se llama SST
Dado por la fórmula siguiente: -
Distribución Chi-cuadradoLa distribución ji cuadrado es una familia de distribuciones. Cada distribución se define por los grados de libertad. (Los grados de libertad se comentan en mayor detalle en las páginas sobre la prueba de bondad de ajuste y la prueba de independencia). En la siguiente figura se muestran tres distribuciones ji cuadrado diferentes, con distintos grados de libertad.Prueba de Chi cuadradoLa prueba Chi-cuadrado es una prueba de hipótesis utilizada para determinar si existe una relación entre dos variables categóricas. La prueba Chi-cuadrado comprueba si las frecuencias que se dan en la muestra difieren significativamente de las frecuencias que cabría esperar. Así, se comparan las frecuencias observadas con las esperadas y se examinan sus desviaciones.
-
Odds y log OddsLas probabilidades (técnicamente, las probabilidades de éxito) se definen como la probabilidad de éxito/probabilidad de fracaso. Por lo tanto, la probabilidad de éxito (80 % de probabilidad de lluvia) tiene una probabilidad de fracaso (20 % de probabilidad de que no llueva); como ecuación (la "razón de probabilidades"), es 0,8/0,2 = 4. El logaritmo de las probabilidades es el logaritmo de las probabilidades. ln(4) = 1,38629436 ≅ 1,386.ImputaciónLa imputación de datos es una técnica estadística que se utiliza para reemplazar valores faltantes o nulos en un conjunto de datos. En el análisis de datos y la ciencia de datos, el manejo de los datos faltantes es crucial, ya que pueden afectar significativamente los resultados de cualquier análisis. La imputación de datos tiene como objetivo proporcionar un conjunto de datos más completo, lo que permite un modelado y un análisis más precisos. Existen varios métodos para la imputación de datos, cada uno con sus fortalezas y debilidades, según la naturaleza de los datos y el contexto del análisis.
La imputación de media, mediana y moda se encuentran entre las formas más simples de imputación de datos. La imputación de media reemplaza los valores faltantes con el promedio de los datos disponibles, mientras que la imputación de mediana utiliza el valor medio; y la imputación de moda utiliza el valor que aparece con mayor frecuencia. Estos métodos son fáciles de implementar y comprender, pero pueden introducir sesgos, especialmente en distribuciones sesgadas. -
Varianza insesgadaUn estimador insesgado de la varianza es aquel cuya distribución de estimaciones, al tomar múltiples muestras, tiene una media que es igual a la varianza poblacional real.
La insesgabilidad es una propiedad deseable en los estimadores, ya que garantiza que, en promedio, el estimador no se desvía sistemáticamente del valor verdadero del parámetro que se está estimandoLikelihoodEn estadística, la función de verosimilitud (o simplemente, verosimilitud) es una función que permite realizar inferencias sobre los parámetros de un modelo estadístico, basándose en un conjunto de observaciones.
Función de Verosimilitud:
Es una función que evalúa qué tan bien un modelo estadístico describe los datos observados, para un determinado conjunto de parámetros. -
Distribución chi-cuadrado¿Qué es una distribución chi-cuadrado?
Las distribuciones chi-cuadrado (Χ2) son una familia de distribuciones de probabilidad continuas. Se utilizan ampliamente en pruebas de hipótesis, incluyendo la prueba de bondad de ajuste chi-cuadrado y la prueba de independencia chi-cuadrado.
La forma de una distribución chi-cuadrado está determinada por el parámetro k, que representa los grados de libertad.
Muy pocas observaciones del mundo real siguen una distribución chi-cuadrado. El objetivo principal de las distribuciones chi-cuadrado es comprobar hipótesis, no describir distribuciones del mundo real.
Estadísticos de la prueba chi-cuadrado
Las pruebas chi-cuadrado son pruebas de hipótesis con estadísticos de prueba que siguen una distribución chi-cuadrado bajo la hipótesis nula. La prueba chi-cuadrado de Pearson fue la primera prueba chi-cuadrado que se descubrió y es la más utilizada.Cp de MallowsEs un estimador que ayuda a alcanzar un equilibrio importante con el número de predictores en el modelo. El Cp de Mallows compara la precisión y el sesgo del modelo completo con modelos que incluyen un subconjunto de los predictores.
Generalmente, debe buscar modelos en los que el valor de Cp de Mallows sea pequeño y esté cercano al número de predictores en el modelo más la constante (p). Un valor de Cp pequeño indica que el modelo es relativamente preciso (tiene una varianza pequeña) para estimar los coeficientes de regresión verdaderos y pronosticar futuras respuestas. Un valor del Cp de Mallows que se aproxima al número de predictores más la constante indica que el modelo relativamente no tiene sesgo en la estimación de los verdaderos coeficientes de regresión y el pronóstico de respuestas futuras. Modelos con falta de ajuste y sesgo poseen valores de Cp de Mallows más grandes que p.
-
-
-
- Bruce, P. (Il.), Bruce, A. & Gedeck, P. (2022). Estadística práctica para ciencia de datos con R y Python: (2 ed.). Marcombo. https://elibro.puce.elogim.com/es/ereader/puce/281858?page=1
- Miller I , Freund J, (2006) Estadistica para ingenieros, McGraw Hiil https://catalogobiblioteca.puce.edu.ec/cgi-bin/koha/opac-detail.pl?biblionumber=18693
- Martinez M. ( 2020) Bioestadistica Amigable, Elsevier https://catalogobiblioteca.puce.edu.ec/cgi-bin/koha/opac-detail.pl?biblionumber=286887
-
- Gutiérrez A. (2007). Estadística General Aplicada. Universidad EAFIT.
- López W. (2020). Estadística Práctica: Aplicación y análisis para la toma de decisiones. Publicado Independientemente.
-
- Webster A. (2000). Estadística aplicada a los negocios. Irwin Professional Publishing.
- Agresti A. (2013). Categorical Data Analysis. John Wiley & Sons Publication.
- Mendiburu F., Yaseen M. (2020). Experimental Designs with agricolae. Recuperado de: https://myaseen208.com/agricolae/articles/ExperimentalDesign.html
-
- Economipedia. Población estadística: Qué es, tipos y ejemplos. Recuperado de: https://economipedia.com/definiciones
- Webster A. (2000). Estadística aplicada a los negocios. Irwin Professional Publishing.
- Wasserman, L. (2010). All Statistics: A Concise Course in Statistical Inference. Springer Publishing Company.
- Otzen T., Manterola C. (2017). Técnicas de Muestreo sobre una Población a Estudio. Int. J. Morphol. vol.35 no.1 Temuco. Recuperado de: http://dx.doi.org/10.4067/S0717-95022017000100037
- Alvarez H. Conceptos de estadística. Universidad Santiago de Compostela. Recuperado de: https://www.usc.gal/genp/docencia/ConceptosDeEstadistica.pdf
-
- Economipedia. Población estadística: Qué es, tipos y ejemplos. Recuperado de: https://economipedia.com/definiciones
- Webster A. (2000). Estadística aplicada a los negocios. Irwin Professional Publishing.
- Wasserman, L. (2010). All of Statistics: A Concise Course in Statistical Inference. Springer Publishing Company.
- Otzen T., Manterola C. (2017). Técnicas de Muestreo sobre una Población a Estudio. Int. J. Morphol. vol.35 no.1 Temuco. Recuperado de: http://dx.doi.org/10.4067/S0717-95022017000100037
- Alvarez H. Conceptos de estadística. Universidad Santiago de Compostela. Recuperado de: https://www.usc.gal/genp/docencia/ConceptosDeEstadistica.pdf
-
- Webster A. (2000). Estadística aplicada a los negocios. Irwin Professional Publishing.
-
Rumsey D. (2009). Statistics II. Wiley Publishing Inc.
stats package - RDocumentation. (n.d.). Recuperado de: https://www.rdocumentation.org/packages/stats/versions/3.6.2
-
- Webster A. (2000). Estadística aplicada a los negocios. Irwin Professional Publishing.
-
- Webster A. (2000). Estadística aplicada a los negocios. Irwin Professional Publishing.
- Donnelly R. (2019). Business Statistics. Pearson Publishing.
-
- Webster A., (2000), Estadística aplicada a los negocios, Irwin Professional Publishing.
- Donnelly R. (2019). Business Statistics. Pearson Publishing. (http://www.ub.edu/) | https://dle.rae.es/inferencia
-
- Schmuller J.(2022), Statistical Analysis with Excel For Dummies, Wiley Teck K, (2022), Practical t-test Power Analysis with R, Practical Assessment, Research & Evaluation, Volumen 27, No 18 .
-
- Berman H.G., "F Distribution , descargado de https://stattrek.com/probability-distributions/f-distribution
- Rodrigo J. (2017) , ANOVA análisis de varianza para comparar múltiples medias, descargado de https://cienciadedatos.net/documentos/19_anova
-
- Webster A., (2000), Estadística aplicada a los negocios, Irwin Professional Publishing
- Bruce A. et al., (2017) Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, O'Reilly Media, Inc.
-
- Webster A., (2000), Estadística aplicada a los negocios, Irwin Professional Publishing
- Szretter, M. (2017), Apunte de Regresión Lineal, Universidad de Buenos Aires .
- Bruce A. et al., (2017) Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, O'Reilly Media, Inc.
-
- Szretter M. (2017) Apunte de Regresión Lineal, https://mate.dm.uba.ar/~meszre/apunte_regresion_lineal_szretter.pdf
- Rocha A.,(2020) Codificación de variables categóricas en aprendizaje automático, Universidad de Sevilla
- Ramirez-Alan O,(2016), Chi-Cuadrado https://rpubs.com/osoramirez/111403
- Mehdi Koosha, A. Amiri, (2019) The Effect of Link Function on the Monitoring of Logistic Regression Profiles, https://www.semanticscholar.org/
-
- Szretter M. (2017) Apunte de Regresión Lineal, https://mate.dm.uba.ar/~meszre/apunte_regresion_lineal_szretter.pdf
- Faraway J. (2020), Extending the linear model with R, CRC Press
-
- Szretter M. (2017) Apunte de Regresión Lineal, https://mate.dm.uba.ar/~meszre/apunte_regresion_lineal_szretter.pdf
- Faraway J. (2020), Extending the linear model with R, CRC Press
-
-
-
Video
-
-
Video
-
-
Idealización y Ejecución
Coordinación del Proyecto:
Javier CarreraCoordinación Administrativa:
Ana María PeñaCoordinación de Producción:
Fernando SpirituGenerador de contenido académicoAlfonso Prado
ProducciónDiseño Multimedia
- Irvin Villavicencio
- Hans Yépez
Diseño Instruccional
- Salomé Palacios
- Christian Ñacato
Tecnología de la Información
- Juan Andrade
- Carlos Guamán
Soporte y ExperienciaSoporte en aulas
- Alex Tomarema
- Adrián Yépez
Acompañamiento
- Gabriela Yánez
Experiencia de usuario
- Katherine Ramos
Marketing y FinanzasFinanciero
- María José Maldonado
Marketing
- Camila Flor
-