¿Quieres dominar los datos y aprender a decidir con base a ellos?

¿Quieres dominar los datos y aprender a decidir con base a ellos? En realidad, todos tenemos alma de científico de datos a un nivel elemental. Hemos recopilado, analizado y utilizado información para comprender una variedad de actividades humanas. Pero, con la evolución de la TI y ahora el Big Data, la ciencia de datos ha evolucionado para convertirse en un campo especializado; relevante en nuestros días y vital para la planeación de nuestro futuro.

En este artículo profundizaremos en un principio de la Ciencia de Datos: la probabilidad.

¿Qué es la probabilidad?

Definamos a la probabilidad. Una moneda, cuando se lanza al aire, solo puede caer en cara o cruz. Conocemos estos dos resultados, lo que hace que la probabilidad sea igual a 50-50. Usemos el mismo ejemplo de la moneda para comprender la probabilidad a fondo.

Ya sabemos que cuando lanzas la moneda solo puedes tener dos posibilidades o resultados. Pero en el mismo caso también tienes un resultado deseado, es decir, el que tienes en mente: cara o cruz.

Probabilidad es el término estadístico que reemplaza al azar y la posibilidad en estos contextos. Es la oportunidad que damos a la certeza sobre lo que puede ocurrir en una situación determinada. La probabilidad cuantifica la oportunidad de un evento para una variable aleatoria. En este ejemplo, el lanzamiento de la moneda es la variable aleatoria. Se llama variable porque los valores pueden cambiar, y es aleatoria porque no podemos controlar el resultado. El número total de derivaciones que pueden ocurrir se conoce como el espacio de muestra.

Una probabilidad de 0 significa que el resultado deseado es imposible. En un lanzamiento de monedas, nunca puedes tener cara y cruz al mismo tiempo, a menos que, por supuesto, estés haciendo trampa.

¿Por qué la probabilidad es relevante para el entrenamiento en ciencia de datos, el aprendizaje automático o los cursos de IA?

Dado un conjunto de variables aleatorias, podemos calcular el espacio muestral y la probabilidad de resultados probables. Esto está en el corazón de la ciencia de datos, la IA y el aprendizaje automático, disciplinas que utilizan enormes volúmenes de datos pasados para predecir el futuro. Los científicos de datos utilizan estas disciplinas para resolver problemas en los negocios, la humanidad, la atención médica y otros interesantes temas.

Las aplicaciones son inmensas:

Puedes predecir las ventas futuras y la rotación de clientes a través de datos históricos.
Aprender de escenarios pasados para identificar escenarios desconocidos.
Utilizar los datos de compras anteriores de clientes para predecir y recomendar nuevos productos.
Usar el historial de crédito pasado para predecir qué clientes incumplirán.

Podrás confiar más en datos históricos, que siempre son imperfectos e inciertos. Esto se debe a errores de medición y lagunas en la captura de datos. Pero el futuro no es seguro tampoco. Uno puede hacer predicciones probabilísticas sobre posibles resultados. Y tendrás mejor información.

Sin embargo, la vida real tiene múltiples variables aleatorias, que interactúan entre sí, a diferencia de un lanzamiento de moneda. Entonces, para navegar por las muchas permutaciones y combinaciones, necesitas herramientas como la probabilidad conjunta, condicional e independiente.

¿Qué es la probabilidad conjunta?

Describe la probabilidad de los resultados de dos variables aleatorias que ocurren simultáneamente.

Digamos que la siguiente tabla representa los 3 programas principales en el servicio de transmisión de TV Netstar y el desglose demográfico del número de espectadores.

Shows	Hombres	Mujeres	Total
Hometown	100,000	50,000	150,000
Sita	50,000	200,000	250,000
Cricket	40,000	40,000	80,000
Total	190,000	290,000	480,000

¿Cuál es la probabilidad de que una espectadora vea el programa Sita?

Hay dos niveles de probabilidad aquí: primero, que el espectador sea mujer y segundo, que este espectador femenino vea a Sita.

P (Femenino y Sita)

= Número de resultados deseados (200.000) / Número total de resultados (480.000) = 0,42

Suponiendo que la variable aleatoria A representa espectadores femeninos y la variable aleatoria B representa a Sita, calcular la probabilidad conjunta usando la fórmula nos daría la misma respuesta:

P (A y B) = P (A | B) x P (B) = (200.000 / 250.000 = 0,8) x (250.000 / 480.000 = 0,52) = 0,42

Las aplicaciones de la probabilidad conjunta son muy variadas.

Como puedes notar, las compañías de transmisión de entretenimiento obtienen información, a través de la ciencia de datos, sobre a qué segmento de espectadores les gusta la variedad de programas. Con esta información pueden asignar los presupuestos adecuados para nuevos programas y para actividades de marketing.

Acelera tu carrera con el programa adecuado

Comparte tus datos con nosotros y permite que nuestros asesores te guíen hacia la excelencia

Las empresas de cadena de suministro y logística también pueden utilizar la ciencia de datos para predecir la congestión del tráfico. Supongamos que los centros A y B tienen camiones que entran y salen. A través de la probabilidad conjunta, puede predecir el número de camiones que entran en el Hub A durante una duración de tiempo particular T, y los camiones que salen del Hub A en la misma duración de tiempo.

¿Qué es la probabilidad condicional?

Esta es la probabilidad de que ocurra un evento dado el conocimiento de que otro evento ya ha ocurrido.

Sigamos usando el ejemplo anterior.

Si un espectador, llamémosle R, acaba de obtener una suscripción a Netstar, ¿cuál es la probabilidad de que su programa favorito sea Hometown?

Ahora, ya sabemos sobre una condición: que R sea mujer. Estimar la probabilidad de que una variable aleatoria A (su programa favorito es Hometown), se le haya dado una variable aleatoria condicional B (suscriptora femenina de Netstar), es de lo que se trata la probabilidad condicional.

Expresado como una fórmula:

P (A| B) = P(A y B) / P(B) = (50.000 / 480.000 = 0,1 ) / (290.000 / 480.000 = 0,6) = 0,17

Hay una probabilidad de 0.17 de que R vea Hometown. Las condiciones dadas en este problema es que R es mujer.

Las aplicaciones de la probabilidad condicional son bastante amplias.

Por lo general, se utiliza cuando se trata de datos de series temporales (puntos de datos recopilados en intervalos de tiempo sucesivos) o en el caso de eventos que ocurre en un día en particular, dependiendo de los desarrollos de días anteriores, por ejemplo, precios de acciones, pronósticos meteorológicos, etc.

Por ejemplo, el meteorólogo podría estimar una probabilidad de lluvia del 40 por ciento, que está condicionada a la probabilidad de muchos factores, tales como:

Un frente frío que llega a la zona.
La formación de nubes de lluvia.
Otro frente alejando las nubes de lluvia.

¿Qué es la probabilidad marginal?

Esta es la probabilidad de un evento para una variable aleatoria independientemente del resultado de otras variables aleatorias.

Continuando con el ejemplo de Netstar, qué pasaría si tuviéramos que encontrar …

a) la probabilidad de que un espectador de Netstar vea Hometowny
b) la probabilidad de que un espectador de Netstar sea hombre?

0.31 (150,000/480,000) es la probabilidad de que un espectador de Netstar vea Hometown.

0.39 (190,000/480,000) es la probabilidad de que un espectador de Netstar sea hombre.

¿Podemos explorar cursos de ciencia de datos para obtener más información?

¡Claro! Los cursos de ciencia de datos ayudan a los aspirantes a recopilar, separar y saber analizar los datos, a nivel macro. Perfecciona tu técnica y especialízate en ello. Te aseguramos que hay mucho que hacer en esa área dentro de diversas industrias. Conoce nuestro portafolio.

Te invitamos a seguir leyendo: Los 9 roles más interesantes en ciencia de datos