El exceso de información: un enfoque de Machine Learning

El exceso de información: un enfoque de Machine Learning

Actualmente, se estima que se generan más de 2.5 quintillones de datos diarios. Aunque a muchos nos alegra tener acceso a esa cantidad de información, en realidad necesitamos plataformas para consultarla de forma fácil, exacta y rápida.

Dichas plataformas, que en cierta forma nos resumen la información disponible, buscan solucionar el problema de cuál parte de la información mostrar de manera sencilla, de modo que la consulta de dicha información no requiera más que un par de segundos y quedemos satisfechos con las respuestas que nos muestran.

Gracias al avance de los modelos de Machine Learning son muchas las plataformas que nos resuelven este problema según el tipo de información que buscamos.

En este artículo buscaré explicar la lógica general de los llamados modelos de extracción de información y mostraré un camino a cómo resolver el problema del exceso de información a través de dos modelos de Machine Learning, uno de clasificación y otro de ranking (o scoring).

Un modelo de scoring lo podemos dividir en dos etapas. La primera consiste en clasificar contenido como relevante o no relevante, mientras que la segunda busca asignar una calificación al contenido según la relevancia de la información disponible.

Es importante mencionar que esta es una forma sencilla de abordar el problema. Sin embargo, no es la única y dependerá de cada plataforma cómo lo aborde. Otros modelos se enfocan en encontrar la distancia entre la query (un texto de búsqueda) y el contenido en cada pieza de información, lo que los vuelve problemas de procesamiento de lenguaje natural. Otros enfoques apuntarán a generar directamente un score para cada pieza de información, saltándose el paso de clasificar el contenido.

Pongamos como ejemplo una biblioteca en donde hay una bibliotecaria (no, esta biblioteca no es Amazon). La biblioteca recibe constantes donaciones de libros y quiere  decidir cuáles libros conservar y, posteriormente, cómo recomendarlos a los clientes. ¡Este es un problema real de espacio!

Lo primero que debe decidir entonces la bibliotecaria es cuáles libros va a aceptar en el futuro.Claro está que ella desea tener disponibles los libros que atraerán a más lectores.

¿Cuáles libros aceptar?  Modelo de clasificación: eliminando el exceso de información

El problema de exceso de información se puede analizar desde una función matemática objetivo que, verbalmente, se describe como el calcular la probabilidad de que x contenido le interese o no a los usuarios. Los modelos que buscan resolver estos problemas binarios son conocidos como modelos de clasificación.

Los modelos de clasificación que se utilizan como paso previo al modelo de scoring convierten las acciones de las plataformas en señales para “entender” cuál contenido gusta o no gusta.

La naturaleza y complejidad del modelo final dependerá de los tipos de acciones que tengan los usuarios para compartir el gusto o falta de éste por el contenido.

En nuestro ejemplo de la bibliotecaria, el problema caería sobre decidir si aceptar un libro o no. Sin embargo, lo que realmente interesa a la biblioteca es recomendar libros que gusten a los lectores, aumentando así su base.

Para la bibliotecaria, el reto más grande es averiguar si gustó el libro o no a los lectores, debido a que por el problema de espacio solo quiere conservar libros que gusten a quienes acuden a la biblioteca.

En un mundo sencillo, la bibliotecaria podría fácilmente preguntar cuando las personas regresen el libro si les gustó o no y así crear un problema de clasificación de Machine Learning supervisado. A la par, la bibliotecaria necesitará observar a las personas para ver cómo manifiestan este gusto, de modo que cada vez menos veces tenga que preguntarles directamente y sea capaz de estimar si le va a gustar un libro o no a alguien, basado en las acciones que tomó con otros libros.

En el problema de la biblioteca podemos seleccionar como variables independientes: tiempo que tardó en regresar el libro, las veces que lo ha solicitado, cuántos libros de la misma categoría ha pedido al mismo tiempo y si lo terminó o no.

Una vez obtenidas estas variables se puede entrenar el modelo para calcular la probabilidad de que un libro le haya gustado o no y usarlo como pronóstico para estimar si le gustará o no uno nuevo.

Entre 2 o 100 libros que me gustan, ¿cuál me gusta más?  Los modelos de scoring

Un modelo de scoring asigna un número a cada pieza de contenido de modo que se puedan jerarquizar.

La bibliotecaria ya tiene forma de saber si un libro gustó o no, así como de filtrar aquéllos que no gustaron. De ahí la bibliotecaria empezará a hacer más preguntas intentando romper el universo de libros en pedazos más pequeños: “¿te gustan muy largos o cortos?”, “¿novela o divulgación?”, etc. Estas preguntas ya estarán únicamente relacionadas con las características del libro y solo las hará sobre los libros que tienen una probabilidad alta de que gusten.

A la variable dependiente de este modelo de Machine Learning se le conoce como score de relevancia.

Para responder la pregunta de qué gusta más, debemos seleccionar las características del contenido que pueden influir en la relevancia que asignen los usuarios. Estas características son las variables independientes del modelo.

Volviendo a nuestro ejemplo de la bibliotecaria, las características de los libros formarán el conjunto de variables independientes; tomemos por ejemplo, género, longitud, sentimiento que ocasiona su lectura, época, etc.

El score, al ser una variable continua, se puede considerar una función lineal, donde la variable dependiente es el score y las variables independientes son las características del contenido.

El score se puede estimar entonces a través de un modelo de regresión, el cual asignará los pesos a las características del libro.

Este modelo es un modelo supervisado en donde tengo en la base de datos los scores. Es decir, al principio, la bibliotecaria al recibir el libro y corroborar que te gustó, te pedirá que asignes un valor a qué tanto te gustó. Los valores más grandes se asociarán a los libros que más te gustaron.

Una vez obtenido el score de relevancia, el contenido se sorteará de acuerdo con éste y se mostrarán primero las opciones con el score más alto.

El modelo calculará los valores de importancia de las variables tales que un valor más alto implicará que esa característica es más relevante a la hora de determinar el score.

Consideraciones

La parte realmente compleja de estos modelos es el seleccionar cuál conjunto de acciones dirá si le gusta el contenido o no a la usuaria y crear un modelo que combine este conocimiento para calcular la probabilidad de que el contenido sea más atractivo. Usualmente, estos problemas no son supervisados y se resuelven con redes neuronales que aprenden de cada interacción nueva del usuario.

En otro artículo utilizaremos estos modelos para explicar cómo funcionan los algoritmos de feed ranking de redes sociales y en particular el de Facebook.

⚠️
Las opiniones y comentarios emitidos en este artículo son propiedad única de su autor y no necesariamente representan el punto de vista de Revelo.

Revelo Content Network da la bienvenida a todas las razas, etnias, nacionalidades, credos, géneros, orientaciones, puntos de vista e ideologías, siempre y cuando promuevan la diversidad, la equidad, la inclusión y el crecimiento profesional de los profesionales en tecnología.