Qué es RAG: cómo darle memoria a un agente de IA

Los modelos como Claude o GPT saben muchísimo del mundo, pero no saben nada de tu negocio. No conocen tu tarifa de temporada alta, tu menú actualizado ni la política de cancelación que cambiaste el mes pasado. Si les preguntas, harán lo peor posible: inventar una respuesta que suena convincente. A eso se le llama alucinación, y en atención al cliente es veneno.

RAG (Retrieval-Augmented Generation, o "generación aumentada por recuperación") resuelve exactamente esto.

La idea en una frase

Antes de que la IA responda, primero busca en tus documentos los fragmentos relevantes y se los pasa como contexto. Así contesta con tus datos, no con su imaginación.

Es la diferencia entre un examen de memoria y un examen a libro abierto. RAG le da a la IA el libro abierto — tu libro.

Cómo funciona, paso a paso

Ingesta: tomamos tus PDFs, tu sitio, tu catálogo, tus hojas de cálculo y los partimos en pedazos pequeños ("chunks").
Embeddings: convertimos cada pedazo en un vector — una lista de números que captura su significado. Textos parecidos quedan cerca en el espacio matemático.
Indexado: guardamos esos vectores en una base de datos vectorial (por ejemplo Postgres con pgvector).
Búsqueda semántica: cuando un cliente pregunta algo, convertimos su pregunta en vector y buscamos los fragmentos más cercanos. No busca por palabra exacta, busca por significado.
Generación: le entregamos esos fragmentos al modelo junto con la pregunta y le pedimos que responda solo con base en ellos, citando la fuente.

Búsqueda semántica vs. Ctrl+F

Si alguien pregunta "¿puedo llegar con mi perro?", una búsqueda tradicional por palabra clave falla porque tu documento dice "aceptamos mascotas". RAG entiende que perro ≈ mascota y encuentra la respuesta correcta. Eso es lo que cambia el juego.

Casos reales en Puerto Vallarta

Concierge de hotel boutique: responde por WhatsApp sobre horarios, amenidades y políticas, en español e inglés, 24/7.
Cotizador de real estate: contesta sobre disponibilidad, precios y amenidades de cada desarrollo sin pasar todo a un humano.
Soporte interno: tu equipo le pregunta "¿cómo proceso una cancelación?" y obtiene el procedimiento exacto de tu manual.
Atención a restaurante: menú, alérgenos y reservas, siempre con la información del día.

RAG no es magia: hay que hacerlo bien

El 80% de la calidad está en los detalles de ingeniería, no en el modelo:

Buen chunking: pedazos del tamaño correcto, sin cortar ideas a la mitad.
Citar fuentes: que cada respuesta diga de dónde salió, para poder verificar.
Guardrails: si la respuesta no está en los datos, que diga "no lo sé" o escale a un humano — nunca que invente.
Evals: probar con preguntas reales y medir si responde bien, no "a ver qué sale hoy".
Datos frescos: reindexar cuando cambian precios o políticas.

Hecho con cuidado, un agente con RAG deja de ser un chatbot de juguete y se vuelve un miembro confiable de tu equipo: atiende en segundos, no se cansa y siempre dice la verdad de tu negocio.

Qué es RAG y cómo le da memoria a un agente de IA.