Las dos caras del Machine Learning: Aprendizaje supervisado y no supervisado
En este artículo, exploraremos brevemente los dos tipos de algoritmos empleados en el aprendizaje automatizado, a fin de comprender sus aplicaciones, limitaciones y con un enfoque adicional acerca de por qué el no supervisado suele ser más complejo de utilizar.
Al escuchar el concepto de Machine Learning o Aprendizaje Automatizado nos vienen muchos conceptos a la mente: Modelos avanzados resolviendo problemas complejos en empresas como Google o Amazon, inteligencia artificial, los inicios de la industria 4.0, etc.
Todos ellos reflejarían que es una herramienta de élite utilizada y comprendida solo por unos pocos expertos en el área. Si bien es cierto que forma parte de las tecnologías emergentes, Machine Learning es más sencillo de entender de lo que se piensa. Consiste en modelos o algoritmos que se adaptan o aprenden de los datos que suministramos . Un científico de datos busca conocer (de forma general) todos esos modelos disponibles para aplicarlos al problema correcto.
Antes de entrar a modelos detallados es importante conocer los grupos generales de modelos: Modelos de aprendizaje supervisado y no supervisado.
Aprendizaje Supervisado
Anteriormente, hablamos de Machine Learning y de modelos que aprenden de datos recibidos. Ahora bien, ¿qué queremos que aprendan? Eso dependerá de nuestra aplicación de interés, pero lo primero que una máquina debe aprender se regiría por lo siguiente: “Dado a mi set de datos x, predice y”.
Para aprender a resolver ese problema, las máquinas necesitan un poco de nuestro apoyo al separar los datos. En ese sentido, éstas reciben datos sobre los cuales realizamos un tratamiento para garantizar los siguientes puntos.
En primer lugar, el set de datos contiene suficiente información para explicar un elemento particular, al tiempo que proporcionamos el material de estudio (set de datos) y la respuesta (variable respuesta) de forma separada para indicarle qué debe aprender. Tomemos como ejemplo un caso de pacientes con Covid-19. Nos interesaría predecir si un paciente tendrá o no complicaciones dadas sus características. Para esto, alimentamos al modelo con datos de salud como altura, peso, nivel de colesterol y oxigenación en la sangre, lo cual indicaría si han tenido complicaciones o no. Con esa información, el modelo utiliza distintos métodos para encontrar aquél más próximo a explicar la realidad (menor error). Aunque los métodos pueden variar, todos los modelos que utilicen esta forma de aprendizaje se conocen como modelos supervisados.
Estos modelos se llaman así porque el proceso de entrenar el modelo buscando reducir el error se asemeja bastante a nuestra forma tradicional de aprendizaje con un mentor y objetivo bien definido. Al estar muy alineados a nuestra forma de aprender, no debe de sorprender que sean los más amigables de utilizar y, por consecuencia, los más populares. Estos modelos reúnen distintas variantes según los supuestos estadísticos y las metodologías utilizadas por cada uno, pero sus aplicaciones se pueden resumir en 3 aplicaciones principales.
- Pronóstico: En este grupo de modelos se busca predecir el valor de una variable en el futuro, usando el comportamiento del pasado. Esto puede aplicar para las ganancias de una empresa, el clima o inclusive el precio de un activo financiero. Esto no significa que no podamos usar otros datos, pero el pronóstico es único debido al enfoque central que tiene la variable de tiempo. Aunque en el presente no contamos con las variables del futuro, sí podemos utilizar datos del pasado para simular un pronóstico y validar allí el error del modelo.
- Clasificación: Se enfoca en predecir la categoría a la que pertenece cierta observación, basado en el supuesto de que ya tenemos un set de datos de factores y etiquetas de grupos. Un ejemplo es el caso mencionado anteriormente sobre Covid. Allí, nuestras categorías son grave o leve. Este modelo es un poco más directo en cuanto a validación, debido a que el error por registro solo puede tener 2 opciones: acertaste o fallaste.
- Regresión: Muy similar al pronóstico, solo que en lugar de predecir un valor para el futuro, éste puede ser independiente del tiempo. En sí, la validación y la lógica del modelo se mantienen bastante similares.
Estos modelos tienen un gran número de aplicaciones y nos ayudan a resolver problemas complejos y relevantes, pero es muy importante recalcar que para que éstos funcionen, debemos contar con una forma de validar donde se haya alcanzado el menor margen de error posible. Entonces, ¿hay casos donde no podamos calcular un error? Lamentablemente, hay muchos donde sucede lo anterior por limitaciones del fenómeno (casos de fraudes) o financieras (pruebas médicas). Por ende, nos deja solo con un set de datos general sin etiquetas. La consecuencia súbita es que los modelos previamente mencionados no funcionen debido a que solamente tenemos el set de datos y no un fenómeno que deseamos predecir.
Aprendizaje no supervisado
La otra cara del Machine Learning. Sus modelos se contraponen a los definidos anteriormente por no seguir una estructura de aprendizaje similar a la nuestra, haciéndolos lucir como contraintuitivos y más abstractos. Esta rama solamente utiliza un set de datos sin etiquetar y su propósito principal es extraer más información de los datos, sean relaciones complejas entre variables, agrupaciones o algo más complejo para nosotros, pero bastante interpretable para la máquina.
Lo anterior es bastante valioso. Sin embargo, seguimos sin una forma de validar el resultado del modelo o, al menos, que no se resuelve de forma tradicional. El detalle está en que estos modelos sí pueden validarse ,pero no es algo tan directo como en los casos anteriores. Hay muchos aspectos específicos que necesitan revisión según el subgrupo de modelo empleado, así como la aplicación específica que precisamos resolver.
Clusterización
Tipo de modelo utilizado en problemas de segmentación. Se usa principalmente para la identificación de grupos altamente compactos (los puntos en un grupo tienen poca distancia entre sí) y bien definidos (los grupos están muy alejados entre ellos).
Una vez entrenado el modelo, tenemos como salida a qué grupo o cluster pertenece cada observación de nuestros datos. Aquí entra uno de los mayores retos de esta clase de modelos: la validación no tanto desde la perspectiva del algoritmo, sino desde la perspectiva de la aplicación. Esta tarea es delegada, por lo general, a una persona con alto nivel de expertise en la aplicación de interés, porque lo verdaderamente valioso es darle un significado real a los clusters generados en el modelo.
Asociación
Modelo utilizado para sistemas de recomendación. Encuentra relaciones y similitudes entre distintos objetos (películas, canciones, productos). Con base en sus características o compras de otros clientes, recomienda nuevas opciones al usuario. Esta validación es imposible de hacer. ¿Por qué? La única forma de validar si la recomendación funciona es enviándola al usuario. Para estar seguros de que funcione el modelo, debemos recurrir a una persona con expertise y conocimiento de la aplicación. ¿Las películas recomendadas hacen sentido? ¿Hay algún aprendizaje nuevo de las recomendaciones? ¿Se puede explicar la razón de la recomendación?
Reducción de dimensionalidad
Usados para reducir la complejidad de un set de datos. Dependiendo de la aplicación, podemos contar con muchas variables relevantes. Tomando como ejemplo un caso del área de salud, es posible reunir datos de estatura, peso, % de grasa o músculo, niveles de glucosa y colesterol. Pese a que todas esas variables son importantes en el bienestar de un individuo, algunas de ellas guardan una correlación bastante fuerte entre sí mismas.
Al generar lo anterior información redundante entre las variables disponibles, es posible aplicar diferentes modelos, eligiendo aquél que contenga la mayor cantidad de información con el menor número de variables. ¿Alguna desventaja? Sí, se pierde la interpretabilidad de las variables y una ligera cantidad de información (si eliminamos variables, es lógico que no conservemos el 100% de la información).
En estos tres casos vemos por qué estos modelos se perciben como complejos. No tanto porque un algoritmo sea difícil de entender. De hecho, muchos modelos no supervisados tienen fundamentos más laxos que los supervisados. El problema surge al momento de validarlo e intentar estimar un rango de error. Tener suficiente conocimiento de fondo para interpretar apropiadamente el modelo y saber hacer las preguntas adecuadas es una curva de aprendizaje bastante fuerte, pero manejable y, sin lugar a dudas, comprender tu aplicación ayudará bastante a resolver problemas.
Este comentario no quiere decir que un tipo de modelo sea mejor que el otro. Más bien es para saber cuáles herramientas tenemos a disposición. Tanto el aprendizaje supervisado como el no supervisado tienen aplicaciones dependiendo del problema, pero es importante comprender los requerimientos clave para utilizar cada uno y conocer sus limitaciones.
Los modelos supervisados pueden validarse de forma directa, pero la complejidad del modelo puede crecer bastante y conocer la métrica de error origina el problema de querer reducirlo aún más con otro modelo o datos. Claro que los métodos no supervisados son más abstractos, muy susceptibles a errores y requieren mucho conocimiento de fondo para hallar una interpretación. No obstante, estos modelos generan información utilizable. Conociendo estas limitaciones, alguien puede definir los problemas con potencial para algún modelo perteneciente a alguno de estos dos grupos, sabiendo cuál enfoque dará a su análisis.
Revelo Content Network da la bienvenida a todas las razas, etnias, nacionalidades, credos, géneros, orientaciones, puntos de vista e ideologías, siempre y cuando promuevan la diversidad, la equidad, la inclusión y el crecimiento profesional de los profesionales en tecnología.