Tipos de aprendizaje en Ciencia de Datos

Tipos de aprendizaje en Ciencia de Datos

Sabemos que la Ciencia de Datos —conocida en inglés conocido como Data Science— se creó con la idea de entender, interpretar y sacar valor a miles de millones de datos. Una vez recolectados, los modelos de ciencia de datos nos pueden ayudar a encontrar y/o reconocer patrones para la toma de decisiones o automatizar algún proceso.

Para empezar a usar Data Science es importante conocer los tipos de aprendizaje para poder identificar cómo solucionar el problema que nos planteemos. En este artículo, te explicaré tres formas de aprendizaje dentro de la rama de Machine Learning y cómo identificarlos en nuestros datos.

Aprendizaje Supervisado

El aprendizaje supervisado, también conocido en inglés como Supervised Learning, viene de la idea de que nuestros datos ya están etiquetados. Muchas veces estos datos son etiquetados por humanos, ya que por experiencia en la industria saben identificar el objetivo. Este aprendizaje es usado para entrenar modelos de clasificación o regresión.

Imagen 1.1 Datos para un Aprendizaje Supervisado

Un ejemplo de cómo se ven los datos para tener un entrenamiento supervisado puede hallarse en la imagen 1.1. Allí tenemos las características señaladas como X, que son lo que podemos usar para describir nuestra etiqueta Y. Tanto nuestras características X como la etiqueta Y son necesarias para entrenar nuestro modelo de Machine Learning.

Ya que identificamos nuestras variables X y Y, veamos un ejemplo en la vida real. Este ejemplo son los modelos que son usados para la automatización de procesos. Ahora vemos que las máquinas para empaquetar artículos hacen la toma de decisión automatizada por medio de modelos de clasificación. En la imagen 1.1 podemos ver que cada columna de nuestras variables independientes X es una característica que nos ayuda a describir algo de nuestra etiqueta Y.

En este ejemplo, nos gustaría automatizar si el objeto listo a empaquetar es una manzana o una fresa. Si solo tomamos la primera característica (el color), sería imposible entrenar a nuestro modelo de clasificación. Por eso es necesario que las características sean descriptivas y contengan estadísticas para identificar patrones que mejoraran nuestro modelo.

Imagen 1.2 Ejemplo de clasificación

Aprendizaje No Supervisado

El aprendizaje no supervisado, conocido en inglés como Unsupervised Learning, tiene la idea de que solo contamos con nuestras variables independientes. En este tipo de aprendizaje no es necesaria la etiqueta para entrenar un modelo. Muchas veces no hay conocimiento previo de estos datos y son entrenados para encontrar patrones y agruparlos. Este aprendizaje es usado para entrenar modelos de agrupamiento, también conocidos como clustering.

Un ejemplo en la industria es en la segmentación de clientes para las campañas de mercadotecnia. En este ejemplo, tenemos una base de datos de todos nuestros clientes y los productos que han adquirido en nuestra tienda de servicios telefónicos. La imagen 2.1 nos muestra cómo se vería esta base de datos.

Imagen 2.1 Base de datos de clientes

Esta base de datos contiene más de un millón de clientes y nos gustaría agruparlos basados en sus características. El modelo entrenado solo con datos X será capaz de encontrar patrones para que podamos obtener nuestra etiqueta. Estas etiquetas que el modelo de clustering nos dio, serán de uso para conocer los diferentes grupos de clientes que tenemos. Así como la imagen 2.2 nos muestra el resultado del modelo de clustering donde se agrupa a los tres primeros clientes en dos grupos diferentes. Esto facilitará la toma de decisión de cómo mandar nuestras campañas de mercadotecnia u ofrecer ofertas de diferentes servicios, dependiendo de cuál sea nuestro objetivo.

Imagen 2.2 Resultado de modelo Clustering

Aprendizaje Reforzado

El aprendizaje reforzado o Reinforcement Learning agarró popularidad rápidamente al postular que los algoritmos aprenden a interactuar en un ambiente por sí solos, a través de un agente. Estos algoritmos son muy usados en la industria de la robótica y  de los videojuegos.

Imagen 3.1 Componentes de Aprendizaje Reforzado

En el aprendizaje reforzado, como lo muestra la imagen 3.1 , es necesario definir un agente, las acciones del agente, un ambiente, el estado y su reconocimiento. El aprendizaje reforzado es fácil de entender cuando planteamos el escenario de entrenar a un perro a dar la patita. En este caso, el agente es el perro y su acción tendrá consecuencia en el ambiente donde está (la niña, en este caso).

Si el perro da la pata es una acción y será premiada con una galleta. De no ser así, el perro no recibe ningún reconocimiento y pasa al estado donde comenzó desde un principio. Hay que recordar que, para que un agente aprenda, se necesita definir el estado de comienzo y de final. Estos datos mencionados tendrán que definirse para así entrenar modelos con aprendizaje reforzado.

Por último, observen la imagen 4. Será de gran utilidad para recordar el tipo de aprendizaje que necesitarán para resolver el problema planteado.

Imagen 4. Resumen de Tipos de Aprendizaje en Ciencia de Datos

La definición de estos tres tipos de aprendizaje en este artículo son de gran ayuda si apenas inicias tu carrera en ciencia de datos. También recuerda:  entender estos conceptos te ayudará porque, seguramente, será pregunta de entrevista. A partir de estas bases será más fácil entender cualquier modelo de Machine Learning.

⚠️
Las opiniones y comentarios emitidos en este artículo son propiedad única de su autor y no necesariamente representan el punto de vista de Revelo.

Revelo Content Network da la bienvenida a todas las razas, etnias, nacionalidades, credos, géneros, orientaciones, puntos de vista e ideologías, siempre y cuando promuevan la diversidad, la equidad, la inclusión y el crecimiento profesional de los profesionales en tecnología.