¿Qué es la generación aumentada de recuperación?

Revista Cloud Computing 29 Ago, 2023 9.319

RAG es un marco de IA para recuperar datos de una base de conocimiento externa para fundamentar grandes modelos de lenguaje (LLM) en la información más precisa y actualizada y brindar a los usuarios información sobre el proceso generativo de los LLM.

Los modelos de lenguaje grandes pueden ser inconsistentes. A veces aciertan la respuesta a las preguntas, otras veces regurgitan datos aleatorios de sus datos de entrenamiento. Si de vez en cuando parece que no tienen idea de lo que dicen, es porque no es así. Los LLM saben cómo se relacionan las palabras estadísticamente, pero no lo que significan.

La generación aumentada de recuperación (RAG) es un marco de inteligencia artificial para mejorar la calidad de las respuestas generadas por el LLM al basar el modelo en fuentes externas de conocimiento para complementar la representación interna de la información del LLM. La implementación de RAG en un sistema de respuesta a preguntas basado en LLM tiene dos beneficios principales: garantiza que el modelo tenga acceso a los hechos más actuales y confiables, y que los usuarios tengan acceso a las fuentes del modelo, lo que garantiza que se pueda verificar la precisión y la precisión de sus afirmaciones. en última instancia confiado.

«Es necesario hacer una referencia cruzada de las respuestas de un modelo con el contenido original para poder ver en qué basa su respuesta«, dijo Luis Lastras, director de tecnologías del lenguaje en IBM Research.

RAG tiene beneficios adicionales. Al basar un LLM en un conjunto de hechos externos y verificables, el modelo tiene menos oportunidades de extraer información incorporada en sus parámetros. Esto reduce las posibilidades de que un LLM filtre datos confidenciales o «alucine» información incorrecta o engañosa.

RAG también reduce la necesidad de que los usuarios entrenen continuamente el modelo con nuevos datos y actualicen sus parámetros a medida que evolucionan las circunstancias. De esta manera, RAG puede reducir los costos computacionales y financieros de ejecutar chatbots con tecnología LLM en un entorno empresarial. su nueva plataforma de datos e inteligencia artificial, watsonx, que ofrece RAG IBM presentó en mayo .

Un enfoque de ‘libro abierto’ para responder preguntas difíciles

La base de todos los modelos básicos , incluidos los LLM, es una arquitectura de IA conocida como transformador. Convierte montones de datos sin procesar en una representación comprimida de su estructura básica. A partir de esta representación en bruto, un modelo básico se puede adaptar a una variedad de tareas con algunos ajustes adicionales en el conocimiento etiquetado y específico del dominio.

Pero el ajuste por sí solo rara vez proporciona al modelo toda la amplitud de conocimientos que necesita para responder preguntas muy específicas en un contexto en constante cambio. En un artículo de 2020 , Meta (entonces conocido como Facebook) ideó un marco llamado generación aumentada de recuperación para brindar a los LLM acceso a información más allá de sus datos de capacitación. RAG permite a los LLM aprovechar un conjunto de conocimientos especializados para responder preguntas de manera más precisa.

“Es la diferencia entre un examen a libro abierto y uno a libro cerrado”, dijo Lastras. «En un sistema RAG, se le pide al modelo que responda a una pregunta navegando por el contenido de un libro, en lugar de intentar recordar hechos de memoria».

Como sugiere el nombre, RAG tiene dos fases: recuperación y generación de contenido. En la fase de recuperación, los algoritmos buscan y recuperan fragmentos de información relevante para la pregunta o mensaje del usuario. En un entorno de consumo de dominio abierto, esos datos pueden provenir de documentos indexados en Internet; En un entorno empresarial de dominio cerrado, normalmente se utiliza un conjunto más limitado de fuentes para mayor seguridad y confiabilidad.

Esta variedad de conocimiento externo se adjunta al mensaje del usuario y se pasa al modelo de lenguaje. En la fase generativa, el LLM se basa en el mensaje aumentado y su representación interna de sus datos de entrenamiento para sintetizar una respuesta atractiva adaptada al usuario en ese instante. Luego, la respuesta se puede pasar a un chatbot con enlaces a sus fuentes.

Hacia respuestas personalizadas y verificables

Antes de los LLM, los agentes de conversación digitales seguían un flujo de diálogo manual. Confirmaron la intención del cliente, obtuvieron la información solicitada y entregaron una respuesta en un guión único para todos. Para consultas sencillas, este método manual de árbol de decisiones funcionó bien.

Pero tenía limitaciones. Anticipar y escribir respuestas a cada pregunta que un cliente pudiera hacer tomó tiempo; Si te perdías un escenario, el chatbot no tenía capacidad para improvisar. Actualizar los guiones a medida que evolucionaban las políticas y las circunstancias era poco práctico o imposible.

Hoy en día, los chatbots basados en LLM pueden brindar a los clientes respuestas más personalizadas sin que los humanos tengan que escribir nuevos guiones. Y RAG permite a los LLM ir un paso más allá al reducir en gran medida la necesidad de alimentar y volver a entrenar el modelo con ejemplos nuevos. Simplemente cargue los documentos o políticas más recientes y el modelo recuperará la información en modo de libro abierto para responder la pregunta.

Actualmente, IBM está utilizando RAG para basar sus chatbots internos de atención al cliente en contenido que pueda ser verificado y confiable. Este escenario del mundo real muestra cómo funciona: una empleada, Alice, se enteró de que la escuela de su hijo tendrá salida anticipada los miércoles durante el resto del año. Quiere saber si puede tomar vacaciones en incrementos de medio día y si tiene suficientes vacaciones para terminar el año.

Para elaborar su respuesta, el LLM primero extrae datos de los archivos de recursos humanos de Alice para averiguar cuántas vacaciones tiene como empleada desde hace mucho tiempo y cuántos días le quedan en el año. También busca en las políticas de la empresa para verificar que sus vacaciones se puedan tomar en media jornada. Estos datos se introducen en la consulta inicial de Alice y se pasan al LLM, que genera una respuesta concisa y personalizada. Un chatbot ofrece la respuesta, con enlaces a sus fuentes.

Enseñar al modelo a reconocer cuando no sabe.

Las consultas de los clientes no siempre son tan sencillas. Pueden estar redactados de forma ambigua, complejos o requerir conocimientos que el modelo no tiene o no puede analizar fácilmente. Estas son las condiciones en las que los LLM son propensos a inventar cosas.

«Piense en el modelo como un empleado junior demasiado ansioso que deja escapar una respuesta antes de verificar los hechos«, dijo Lastras. “La experiencia nos enseña a detenernos y decir cuando no sabemos algo. Pero los LLM deben estar capacitados explícitamente para reconocer las preguntas que no pueden responder”.

En un escenario más desafiante tomado de la vida real, Alice quiere saber cuántos días de baja por maternidad tiene. Un chatbot que no utiliza RAG responde alegremente (e incorrectamente): «Tómate el tiempo que quieras».

Las políticas de licencia por maternidad son complejas, en parte, porque varían según el estado o país de la oficina central de la empleada. Cuando el LLM no pudo encontrar una respuesta precisa, debería haber respondido: «Lo siento, no lo sé», dijo Lastras, o haber hecho preguntas adicionales hasta que pudo llegar a una pregunta que pudiera responder definitivamente. En cambio, extrajo una frase de un conjunto de capacitación repleto de lenguaje empático y agradable al cliente.

Con suficientes ajustes, se puede entrenar a un LLM para que haga una pausa y diga cuándo está atascado. Pero es posible que necesite ver miles de ejemplos de preguntas que pueden y no pueden responderse. Sólo entonces el modelo puede aprender a identificar una pregunta sin respuesta y buscar más detalles hasta dar con una pregunta para la que tiene la información para responder.

RAG es actualmente la herramienta más conocida para brindar a los LLM la información más reciente y verificable y reducir los costos de tener que capacitarlos y actualizarlos constantemente. Pero RAG es imperfecto y aún quedan muchos desafíos interesantes para lograr que RAG se haga bien.

En IBM Research, nos centramos en innovar en ambos extremos del proceso: recuperación, cómo encontrar y recuperar la información más relevante posible para alimentar el LLM; y generación, cómo estructurar mejor esa información para obtener las respuestas más ricas del LLM.

Fuente IBM Research Blog