Tema: Clase 7 | ESTADÍSTICA I V - P11293-TEÓRICO-N0280-05-N01

Medición de probabilidad variables discretas 2

Introducción

Ahora que dominamos la distribución de probabilidad binomial, estamos listos para pasar a la siguiente distribución teórica discreta, la de Poisson. Esta distribución de probabilidad recibe su nombre de Simeón Poisson, un matemático francés que desarrolló la distribución a principios del siglo XIX.

Cuando estudiamos la teoría de probabilidades observamos las ventajas de calcular la frecuencia relativa con la que ocurren ciertos eventos y esta frecuencia relativa generalmente estaba relacionada con conceptos de espacio o tiempo.

Con frecuencia se utiliza para describir el número de llegadas de clientes por hora, el número de accidentes industriales cada mes, el número de conexiones eléctricas defectuosas por milla de cableado en un sistema eléctrico de una ciudad, o el número de máquinas que se dañan y esperan ser reparadas.

Aplicación teorema de limite central

El teorema del límite central implica que si el tamaño de la muestra n es grande, la distribución de la suma parcial Yn es aproximadamente normal, con media nμ y varianza nσ2 . De forma equivalente, la media muestral es aproximadamente normal, con media μ y varianza σ2/n.

Empecemos con algunas definiciones

7.1 Distribución de Poisson?

Distribución de Poisson mide la probabilidad de un evento aleatorio sobre algún intervalo de tiempo o espacio, es decir trata de modelar si un evento se producirá en el tiempo o espacio y con qué probabilidad.

Frecuencia Relativa

Este modelo utiliza los datos de las observaciones que se han registrado, en base a estos calcula la frecuencia con la que ha presentado dicho evento y en base a esta frecuencia se calcula la probabilidad.

Adaptación de la fórmula de frecuencia relativa de Webster (2000) capitulo 3

Este modelo es también llamado a posteriori, dado que la probabilidad del evento se calcula luego de ser recabada la data.

También hay que recordar que al calcular este tipo de probabilidad se puede presentar algunos problemas, por ejemplo, de la fórmula podemos deducir que, si las observaciones no incluyen una o más opciones será imposible su cálculo de probabilidad y, por otro lado, si se cuenta con pocas observaciones sus resultados pueden ser engañosos

Esta distribución, ideada por Simeón Poisson en 1840, se refiere a variables aleatorias de naturaleza discreta que tratan de inferir la frecuencia relativa de un evento sobre alguna unidad de tiempo o espacio. Por ejemplo, se utiliza para describir el número de llegadas de clientes por hora, el número de accidentes cada mes, el número de defectos en un enlace de fibra óptima por kilómetro etc. Es decir, cada vez que usted vea un enunciado en el que se pretende conocer el valor de una variable por tiempo o espacio, será una clave para revisar la distribución de Poisson.

Qué es un

De acuerdo a Donnelly R. (2019), Un tiene las siguientes características:

El experimento consiste en contar el número de ocurrencias de un evento durante un período de tiempo, área, distancia o cualquier otro tipo de medición, este valor será dado por el argumento k
La probabilidad de ocurrencia del evento es constante para dos intervalos cualesquiera de tiempo o espacio. Por ejemplo, si seis clientes entran a la tienda durante la primera hora de actividad, esto no tendría ningún efecto en el número de clientes que llegarían durante la segunda hora, esto estaría calculado en la media como se menciona a continuación.
La media de la distribución de Poisson tiene que ser la misma para cada intervalo de medición y se denota con el argumento λ
El número de ocurrencias durante un intervalo es independiente del número de ocurrencias en cualquier otro intervalo
Los intervalos no se superponen. Por ejemplo, al contar el número de clientes que entran a la tienda en períodos de una hora, los períodos de una hora no pueden superponerse entre sí. Podemos contar el número de clientes que llegan entre las 9 y las 10 a. m. y entre las 10 y las 11 a. m., y así sucesivamente, pero no podemos utilizar otro período de 9:30 a 10:30 a.m. porque se superpone con los otros intervalos.

7.2 Funciones de distribución de Poisson Parte I

Función PMF

Recordando el concepto de la función PMF, ésta calcula una probabilidad puntual, por ejemplo, la probabilidad de que entren 3 personas a una tienda asumiendo un lambda de x.

De acuerdo a Webster (2020). Dado los supuestos mencionados arriba la función de probabilidad estará dada por la siguiente fórmula

Figura 2: Función PMF para la distribución de Poisson
Prado A. (2025)

Adaptación de la fórmula para la probabilidad puntual en distribución de Poisson tomado de Webster

(2000) capitulo 5

Note que al encontrar un k! implica que la variable debe ser discreta dado que no es posible calcular el factorial de un valor con decimales.

A diferencia de la distribución binomial en el cual el experimento toma solo dos posibles resultados (el evento se presenta o no), en el se puede tener cualquier cantidad de resultados en la unidad de medida. Por ejemplo, la cantidad de clientes que ingresan a un banco físicamente durante la siguiente hora podría ser cero, uno, dos, tres, etc. La variable aleatoria para la distribución de Poisson sería la cantidad real de ocurrencias, en este caso, la cantidad de clientes que llegan durante la siguiente hora. Con esto en mente, entonces el CDF que es la función de probabilidad acumulativa se evalúa como la sumatoria de las probabilidades de todos los posibles valores de la variable discreta (x) que sean menores al valor k, dando como resultado la siguiente fórmula por lo que es importante revisar la fórmula CDF de esta distribución.

Figura 3: Función CDF para distribución de Poisson
Tomado de Webster (2000) capitulo 5

Note la sumatoria de todas las posibilidades de X menores a K

Aprende más

Para conocer más sobre Funciones matemáticas Poisson, describe las fórmulas de la distribución ¡Accede aquí!

Figura 4: Media o valor esperado de aciertos (a), Varianza (b) y Desviación (c) de la distribución de Poisson.
Prado A. (2025)

Tomado de Webster (2000) capitulo 5

(a)

(b)

(c)

TEOREMA DEL LÍMITE CENTRAL EN POISSON

Por otro lado, es interesante mencionar como se aplica el teorema del límite central a la distribución de Poisson. Recordando el teorema establece que a medida que n se vuelve más grande, la distribución de las medias muestrales se aproxima a una distribución normal con una media de μ y un error estándar de σ/√n.

El siguiente código nos permite visualizar la aplicación del teorema del límite central.

#Primero vamos a crear varios datasets que cumple con una distribución de Poisson con distintos lambda

p1 <- rpois(n=10000 , lambda=1)

p2 <- rpois(n=10000 , lambda=2)

p3 <- rpois(n=10000 , lambda=5)

p4 <- rpois(n=10000 , lambda=10)

p5 <- rpois(n=10000 , lambda=20)

#Colocamos todos los datasets en el mismo dataframe

pos_df <- data.frame(l1=p1, l2=p2, l5=p3, l10=p4, l20=p5)

head(pos_df)

# Para poder visualizar mejor vamos a transponer las columnas en filas

#la función melt pasa valores que están en columnas a filas en una columna

#llamada valor en este caso

pos_melted <- melt( data=pos_df , variable.name="lambda", value.name="valor")

head(pos_melted)

class(pos_melted$lambda)

#Si la columna lambda fuera de tipo "character", necesitaríamos convertirla en tipo factor para poder manejar el agrupamiento, para lo cual deberemos hacer una conversión si arriba salió tipo factor estamos OK

head(pos_melted)

tail(pos_melted)

class(pos_melted$lambda)

#Visualizamos la densidad

ggplot(pos_melted , aes(x=valor))+

geom_density(aes(group=lambda, color=lambda, fill= lambda , alpha=1/2 ) )+

scale_color_discrete() +

scale_fill_discrete()+

xlab(“Valor de X”)

Figura 5: Demostración del teorema del límite central
Creación de autor Alfonso Prado

En este caso n serían todos los posibles valores que puede tomar la variable aleatoria, y por consiguiente está relacionado con lambda, en otras palabras, si indicamos que lambda=5 los valores posibles que puede tomar la variable se ubican alrededor de la media 5, es decir, son unos pocos valores, pero si estamos trabajando con una lambda de 100, los valores de X aumentarían considerablemente, aunque las probabilidades de algunos puedan ser muy baja.

Cuando lambda es pequeño podemos observar la densidad de estos pocos valores, pero en la medida que lambda aumenta la cantidad de posibles valores aumenta y su densidad va delineando la campana de Gauss.

7.2 Funciones Programáticas de la distribución de Poisson

Al igual que la distribución normal, los prefijos usados para las funciones de distribución siguen siendo las mismas: d para densidad, p para probabilidad acumulada, q para obtener el inverso de p y r para crear un vector con determinado lambda, y el sufijo será siempre pois.

Tabla 1: Funciones programáticas de la distribución Poisson
Creación de autor Alfonso Prado

Donde:

x Vector de cuantiles que (enteros positivos).
q vector de cuantiles.
p vector de probabilidades.
n número de valores aleatorios a devolver.
Lambda vector de medias (no negativas).

Aprende más

Para conocer más sobre Funciones programáticas, describe en detalle las funciones de la tabla ¡Accede aquí!

Veamos ejemplos de uso de las funciones

Función rpois

Esta función retorna una cantidad dada de valores que cumplen con una media de distribución dada por lambda en un tiempo definido o en un espacio determinado.

#Generar una serie con la distribución de Poisson

#La función rpois() obtiene la serie

#la sintaxis es:

#rpois(n, lambda)

#Donde:

#n es el número de valores deseados que deseamos

#lambda media histórica por unidad de tiempo

#Ejemplo: Generar una serie de 10 elementos que representa la ocurrencia de un evento, cuya media por unidad de tiempo ha sido 10

p0 <- rpois(n=10 , lambda=10)

[1] 9 6 14 11 5 13 8 11 18 11

mean(p0)

[1] 10.6

#Note que la media se aproxima a lambda en Poisson pero no es exactamente 10, esto se debe a la baja cantidad de los valores solicitados.

#Intentando con un n más grande

p0 <- rpois(n=1000 , lambda=5)

head(p0,n=15)

[1] 5 6 3 7 7 4 3 6 1 3 4 5 2 5 3

mean(p0)

[1] 5.0324

#Vemos que se acerca más

Función dpois

Esta función nos permite obtener la densidad para un valor puntual X, en otras palabras, corresponde al PMF del vector. Si X es un vector con múltiples valores calculará la densidad para cada uno de los valores.

#Su sintaxis es:

#dpois(x, lambda, log = FALSE)

#Donde:

#x Vector de cuantiles.

#lambda es la media histórica

#log TRUE su se desea obtener log(P[X]) FALSE si se desea obtener P[X]

#Ejemplo: Cuál es la probabilidad de hacer de exactamente 4 ventas en una semana si la tasa de ventas promedio es de 3 por semana?

dpois(4, lambda=3)

[1] 0.1680314

#Otro ejemplo: Una compañía constructora es responsable por la construcción de un edificio, al terminar el mismo se han detectado 2 defectos por cada piso. Para el nuevo contrato, la contratante desea poner una multa por defectos Le preguntan a usted cual es la probabilidad de tener 3 defectos por piso.

dpois(3,lambda=2)

Es importante mencionar que el valor de x debe estar en iguales unidades que en las que se expresa lambda. Caso contrario se deberá hacer una conversión de la lambda para ponerlo en las mismas unidades. La conversión podría hacerse con la siguiente fórmula.

Fórmula

$l a m d a_{n u e v o} = l a m b d a_{v i e j o} * \frac{u n i d a d e s_{n u e v a s}}{u n i d a d e s_{v i e j a s}}$

Veamos un ejemplo de esta conversión

Si usted recibe llamadas al celular a una tasa constante 2 llamadas por hora, usted va al cine, y se olvida de apagar su celular, cuál es la probabilidad de que en una película de 1.5 horas, su teléfono timbre?

De este problema debemos notar dos cosas, la primera es que otra vez el lambda del enunciado no está en la misma unidad de la lambda que se pregunta. Y la segunda es que el enunciado no indica si el teléfono sonará 1,2, o más veces, por lo tanto, concluimos que estamos ante una pregunta de probabilidad acumulativa o CDF.

#Primero realizamos la conversión al nuevo lambda

$l a m d a_{n u e v o} = l a m b d a_{v i e j o} * \frac{u n i d a d e s_{n u e v a s}}{u n i d a d e s_{v i e j a s}}$

nuevo_lambda=2*1.5/1

#Aplicamos ppois

ppois(0 , lambda=nuevo_lambda, lower.tail=FALSE)

[1] 0.95

Otro ejemplo

Un puente está calculado para soportar 60 toneladas métricas, si se considera que el vehículo más pesado es de 5000kg (5 toneladas) el puente puede resistir el paso de 12 vehiulos. El constructor pregunta cuál es la tasa de transito que tiene este puente, le indican 10 vehículos al tiempo. Para estar seguro el constructor pregunta cuál es la probabilidad de que 12 o más vehículos circulen?

Respuesta:

ppois(11, lambda=10 , lower.tail=FALSE)

# Note el uso de lower tail=FALSE dado que el enuncionado indica 12 o más

[1] 0.3

Función ppois

Esta función calcula la probabilidad acumulativa CDF para una distribución Poisson, tomo como argumentos el vector de cuantiles q, el lambda y el argumento de lower.tail que tiene igual significación que lo visto anteriormente.

Ejemplo

El número medio de automóviles que pasan por la intersección en un minuto determinado es λ = 15, y queremos saber la probabilidad de que pasen exactamente 13 automóviles por ella en el próximo minuto.

dpois(x = 13, lambda = 15)

[1] 0.096

Pero más comúnmente las autoridades estarán interesadas en saber la probabilidad de que la cantidad de vehículos por minuto sea 20 o más, porque en dicha situación los mecanismos de control del tránsito ya no funcionarían.

ppois(x = 19, lambda = 15, lower.tail=FALSE)

[1] 0.12

COMO VISUALIZAR LA DENSIDAD DE PROBABILIDAD

Entender las probabilidades es mucho más fácil en forma visual. Veamos un ejemplo: Una comercializadora tiene un promedio de ventas a 3 clientes por hora, queremos saber cuál es la probabilidad de que en la próxima hora de consigan 0,1,2,3,4,5,6,7,9 o 10 ventas.

#opción para presentación de números con decimales o exponenciales

options(scipen = 999, digits = 2)

#creamos unos vectores

ventas <- 0:10

#Obtenemos las densidades

densidad <- dpois(x = ventas, lambda = 3)

#Obtenemos el CDF

prob <- ppois(q = ventas, lambda = 3, lower.tail = TRUE)

#pasamos los datos a dataframe

df <- data.frame(ventas, densidad, prob)

#Visualizamos

ggplot(df, aes(x = factor(ventas), y = densidad, fill="PDF")) +

geom_col() +

geom_text(

aes(label = round(densidad,2), y = densidad + 0.01),

position = position_dodge(0.9),

size = 3,

vjust = 0

) +

labs(title = "PDF y CDF de Poisson ",

x = "Ventas (x)",

y = "Densidad") +

geom_line(data = df, aes(x = ventas, y = prob) , color="blue")

#Comparemos con el gráfico

dpois( 1, lambda = 3) # da la probabilidad exacta de 1 venta

[1] 0.15

dpois( 4, lambda = 3) # da la probabilidad exacta de 4 ventas

[1] 0.17

ppois(4, lambda=3 , lower.tail=TRUE) #da la probabilidad de 4 ventas o menos

[1] 0.82

ppois(4, lambda=3 , lower.tail=FALSE)# da la probabilidad de mas de 4 ventas

[1] 0.18

Y obtenemos el siguiente gráfico

Figura 6: PMF Y CDF en Distribución Poisson
Creación de autor Alfonso Prado

Función qpois

Como ya sabemos estas funciones lo que nos indican es el inverso de las probabilidades, es decir, dado un vector p de probabilidades, encontrar los cuantiles debajo de los cuales se acumula las probabilidades p.

Por ejemplo:

# Por ejemplo, si tenemos un fenómeno Poisson con tasa promedio lambda de 55 eventos por minuto, podemos calcular los cuantiles que corresponden a las cuartiles 0.25, 0.50, 0.75:

p <- c(0.25, 0.50, 0.75)

qpois(p, lambda = 55)

[1] 50 55 60

#Indicaría que el primer cuartil estaría por debajo del valor 50, la media estaría por debajo del valor 55 y el tercer cuartil estaría ubicado debajo del valor 60

Profundiza más

Este recurso te ayudará a enfatizar sobre casos de distribución Poisson ¡Accede aquí!

Actividades
C7C1 - Cuestionario

Hacer intentos: 1
Foro 2 - Pregunta generativa

Iniciar temas: 1

ESTADÍSTICA I V - P11293-TEÓRICO-N0280-05-N01

Diagrama de temas

Medición de probabilidad variables discretas 2

Introducción

7.1 Distribución de Poisson?

Aprende más

Aprende más

Fórmula

Profundiza más

Mira el Video de la Clase 7

Escucha el Podcast de la Clase 7

Actividades