No puedes tener un chatbot de IA sin un LLM. Así es como funciona todo

Suenan humanos, pero no piensan como nosotros.

Cuando interactúas con un chatbot de IA como ChatGPT , Claude , Copilot o Gemini , puede parecer que estás hablando con otra persona.

Pero estos chatbots en realidad no entienden el significado de las palabras como nosotros. Más bien, son la forma en que interactuamos con lo que se conoce como grandes modelos de lenguaje o LLM. Esta tecnología subyacente está entrenada para reconocer cómo se usan las palabras y cuáles aparecen juntas con frecuencia para poder predecir palabras, oraciones o párrafos futuros.

Las herramientas de IA generativa perfeccionan constantemente su comprensión de las palabras para hacer mejores predicciones. Algunos, incluidos Lumiere de Google y Sora de OpenAI , incluso están aprendiendo a generar imágenes, vídeos y audio.

Todo es parte de un flujo constante de superación iniciado con la introducción de ChatGPT a fines de 2022, seguido de cerca a principios de 2023 por la llegada de la búsqueda Bing mejorada con inteligencia artificial de Microsoft y Bard (ahora Gemini) de Google. Durante los siguientes 12 meses, Microsoft presentó Copilot , Meta actualizó Llama , OpenAI lanzó Dall-E 3 y GPT-4 Turbo , Google anunció Gemini Ultra 1.0 y adelantó Gemini 1.5 Pro , mientras que Anthropic debutó con Claude 3 . Ha llegado al punto en que empresas tecnológicas como Google y Adobe incluso están lanzando adelantos de herramientas que pueden generar juegos virtuales y música para mostrar a los consumidores hacia dónde se dirige la tecnología. 

Podría decirse que una tecnología de vanguardia como esta nunca ha sido tan accesible. Y las empresas que lo desarrollan están ansiosas por atraerlo a sus ecosistemas y reclamar sus derechos en un mercado que se prevé que tendrá un valor de 1,3 billones de dólares para 2032.

Si se pregunta qué tienen que ver los LLM con la IA, esta explicación es para usted. Esto es lo que necesita saber sobre los LLM.

¿Qué es un modelo de lenguaje?

Puedes pensar en un modelo de lenguaje como un adivino de las palabras.

«Un modelo de lenguaje es algo que intenta predecir cómo se ve el lenguaje que producen los humanos», dijo Mark Riedl, profesor de la Escuela de Computación Interactiva de Georgia Tech y director asociado del Centro de Aprendizaje Automático de Georgia Tech. «Lo que hace que algo sea un modelo de lenguaje es si puede predecir palabras futuras dadas las palabras anteriores».

Esta es la base de la función de autocompletar cuando envía mensajes de texto, así como de los chatbots de IA.

¿Qué es un modelo de lenguaje grande?

Un modelo de lenguaje grande es, por definición, un modelo de lenguaje grande.

¿Cuan grande?

Estos modelos se miden en lo que se conoce como «parámetros».

¿Qué es un parámetro?

Bueno, los LLM utilizan redes neuronales, que son modelos de aprendizaje automático que toman una entrada y realizan cálculos matemáticos para producir una salida. El número de variables en estos cálculos son parámetros. Un modelo de lenguaje grande puede tener mil millones de parámetros o más.

«Sabemos que son grandes cuando producen un párrafo completo de texto fluido y coherente», dijo Riedl.

¿Cómo aprenden los modelos de lenguaje grandes?

Los LLM aprenden a través de un proceso llamado aprendizaje profundo.

«Es muy parecido a cuando le enseñas a un niño: le muestras muchos ejemplos», dijo Jason Alan Snyder, director tecnológico global de la agencia de publicidad Momentum Worldwide.

En otras palabras, usted alimenta al LLM con una biblioteca de contenido (lo que se conoce como datos de capacitación), como libros, artículos, códigos y publicaciones en redes sociales para ayudarlo a comprender cómo se usan las palabras en diferentes contextos, e incluso los matices más sutiles de idioma. 

Durante este proceso, el modelo digiere mucho más de lo que una persona podría leer en su vida: algo del orden de billones de tokens.

Los tokens ayudan a los modelos de IA a descomponer y procesar texto. Puedes pensar en un modelo de IA como un lector que necesita ayuda. El modelo divide una oración en partes más pequeñas, o fichas, que equivalen a cuatro caracteres en inglés, o alrededor de tres cuartos de una palabra, para que puedan entender cada parte y luego el significado general.

A partir de ahí, el LLM puede analizar cómo se conectan las palabras y determinar qué palabras suelen aparecer juntas.

«Es como construir este mapa gigante de relaciones entre palabras», dijo Snyder. «Y luego comienza a ser capaz de hacer algo realmente divertido y genial, y predice cuál es la siguiente palabra… y compara la predicción con la palabra real en los datos y ajusta el mapa interno en función de su precisión».

Esta predicción y ajuste ocurre miles de millones de veces, por lo que el LLM refina constantemente su comprensión del lenguaje y mejora en la identificación de patrones y la predicción de palabras futuras. Incluso puede aprender conceptos y hechos a partir de los datos para responder preguntas, generar formatos de texto creativos y traducir idiomas. Pero no entienden el significado de las palabras como nosotros, sólo las relaciones estadísticas.

Los LLM también aprenden a mejorar sus respuestas mediante el aprendizaje reforzado a partir de la retroalimentación humana.

«Se obtiene un juicio o una preferencia de los humanos sobre qué respuesta fue mejor dada la información que se les dio», dijo Maarten Sap, profesor asistente en el Instituto de Tecnologías del Lenguaje de Carnegie Mellon. «Y luego puedes enseñarle al modelo a mejorar sus respuestas».

¿Qué hacen los modelos de lenguaje grandes?

Dada una serie de palabras de entrada, un LLM puede predecir la siguiente palabra.

Por ejemplo, considere la frase «Fui a navegar en el azul profundo…»

La mayoría de la gente probablemente adivinaría «mar» porque navegar, profundo y azul son palabras que asociamos con el mar. En otras palabras, cada palabra establece el contexto de lo que debería venir a continuación.

«Estos grandes modelos de lenguaje, debido a que tienen muchos parámetros, pueden almacenar muchos patrones», dijo Riedl. «Son muy buenos para detectar estas pistas y hacer conjeturas muy, muy buenas sobre lo que viene a continuación».

¿Qué hacen realmente bien los modelos de lenguaje grandes?

Los LLM son muy buenos para descubrir la conexión entre palabras y producir texto que suene natural.

«Toman una entrada, que a menudo puede ser un conjunto de instrucciones, como ‘Haz esto por mí’ o ‘Cuéntame sobre esto’ o ‘Resume esto’ y son capaces de extraer esos patrones de la entrada y producir un largo serie de respuestas fluidas», afirmó Riedl.

¿Dónde luchan los grandes modelos lingüísticos?

Pero tienen varias debilidades.

Primero, no son buenos para decir la verdad. De hecho, a veces simplemente inventan cosas que parecen ciertas, como cuando ChatGPT citó seis casos judiciales falsos en un escrito legal o cuando Bard atribuyó erróneamente al Telescopio Espacial James Webb el haber tomado las primeras fotografías de un planeta fuera de nuestro propio sistema solar. Se les conoce como alucinaciones.

«Son extremadamente poco fiables en el sentido de que confabulan e inventan muchas cosas», dijo Sap. «No están entrenados ni diseñados de ninguna manera para decir nada veraz».

También luchan con consultas que son fundamentalmente diferentes de cualquier cosa que hayan encontrado antes. Esto se debe a que se centran en encontrar patrones y responder a ellos.

Un buen ejemplo es un problema matemático con un conjunto único de números.

«Es posible que no pueda hacer ese cálculo correctamente porque en realidad no está resolviendo matemáticas», dijo Riedl. «Está tratando de relacionar su pregunta de matemáticas con ejemplos anteriores de preguntas de matemáticas que ha visto antes».

Y si bien se destacan en predecir palabras, no son buenos para predecir el futuro, lo que incluye la planificación y la toma de decisiones.  

«La idea de planificar como lo hacen los humanos… pensando en las diferentes contingencias y alternativas y tomando decisiones, parece ser un obstáculo realmente difícil para nuestros grandes modelos de lenguaje actuales», dijo Riedl.

Finalmente, tienen dificultades con los acontecimientos actuales porque sus datos de entrenamiento normalmente solo llegan hasta cierto punto y todo lo que sucede después no forma parte de su base de conocimientos. Y como no tienen la capacidad de distinguir entre lo que es cierto y lo que es probable, pueden proporcionar con seguridad información incorrecta sobre los acontecimientos actuales.

Tampoco interactúan con el mundo como lo hacemos nosotros.

«Esto les dificulta comprender los matices y complejidades de los acontecimientos actuales que a menudo requieren una comprensión del contexto, la dinámica social y las consecuencias del mundo real», dijo Snyder.

¿Cómo evolucionarán los grandes modelos lingüísticos?

Ya estamos empezando a ver empresas de IA generativa como OpenAI y Adobe debutar con modelos multimodales, que se entrenan no solo en texto sino también en imágenes, video y audio.

También es probable que veamos mejoras en las capacidades de los LLM no solo para traducir idiomas del inglés, sino también para comprender y conversar en idiomas adicionales.

También es posible que veamos que las capacidades de recuperación evolucionan más allá de aquello en lo que se han entrenado los modelos. Eso podría incluir aprovechar motores de búsqueda como Google para que los modelos puedan realizar búsquedas en la web y luego introducir esos resultados en el LLM.

Si los LLM estuvieran conectados a motores de búsqueda, podrían procesar información en tiempo real mucho más allá de sus datos de formación. Esto significa que podrían comprender mejor las consultas y proporcionar respuestas más precisas y actualizadas.

 «Esto ayuda a que nuestros modelos de vinculación se mantengan actualizados porque pueden buscar información nueva en Internet y traerla», dijo Riedl.

Hay algunas trampas. La búsqueda en Internet podría empeorar las alucinaciones sin mecanismos adecuados de verificación de datos. Y los LLM necesitarían aprender a evaluar la confiabilidad de las fuentes web antes de citarlas. Además, se necesitaría mucha potencia informática (cara) para procesar los resultados de búsqueda web bajo demanda.

Bing, impulsado por IA , que Microsoft anunció en febrero de 2023, es un concepto similar. Sin embargo, en lugar de recurrir a los motores de búsqueda para mejorar sus respuestas, Bing está utilizando IA para mejorar su propio motor de búsqueda. Esto se debe en parte a una mejor comprensión del verdadero significado detrás de las consultas de los consumidores y a una mejor clasificación de los resultados de dichas consultas.

Fuente: cnet.com