Agentic AI – Teaching Diagram

Capa 1 · Arquitectura — De Qué Está Hecho un Agente

Componentes clave

🎯

Objetivo / Tarea

Intención del usuario

🧠

Cerebro LLM

Motor de razonamiento y decisión

💾

Memoria

historial de conversación + almacén de conocimiento

📋

Planificador

Descompone el objetivo en pasos

🔧

Herramientas

Búsqueda, ejecución de código, APIs

🌍

Entorno

Archivos, servicios, bases de datos

Cerebro LLM El motor de razonamiento central. Lee el objetivo, las herramientas disponibles y todas las observaciones previas, luego decide qué hacer a continuación — generar un pensamiento, llamar a una herramienta o producir una respuesta final. No tiene estado; todo el estado vive en la ventana de contexto o el almacén de memoria.

Memoria Corto plazo: la ventana de contexto — la transcripción continua de pensamientos, llamadas a herramientas y observaciones que el LLM puede leer ahora mismo. Largo plazo: un almacén externo (base de datos vectorial, almacén clave-valor) que el agente puede leer y escribir entre sesiones o cuando el contexto desborda.

Herramientas y Entorno Capacidades ejecutables que el agente puede invocar: búsqueda web, ejecución de código, E/S de archivos, llamadas a APIs, envío de mensajes. El entorno es el mundo real sobre el que actúan esas herramientas. Los resultados de las herramientas vuelven como observaciones que actualizan la comprensión del agente sobre el estado de la tarea.

Capa 2 · Bucle del Agente — El Ciclo ReAct

Se repite hasta terminar

🎯

Recibir Objetivo

Tarea inyectada en el contexto

💭

Pensar

Razonamiento en cadena de pensamiento

⚡

Actuar

Invocar herramienta o sub-agente

👁️

Observar

Resultado de herramienta entra en contexto

🔍

¿Objetivo Logrado?

Verificar condición de parada

✅

Respuesta Final

Tarea completa, resultado entregado

ReAct: Razonar + Actuar El agente intercala trazas de razonamiento ("Necesito encontrar X antes de poder hacer Y") con acciones (llamadas a herramientas). El borrador de pensamientos es visible en el contexto, ayudando al modelo a mantenerse en curso a lo largo de muchos pasos. Esto es fundamentalmente diferente de una sola inferencia — es un bucle.

Condiciones de parada El bucle termina cuando el LLM decide que el objetivo se ha logrado y emite una respuesta final, cuando se alcanza un límite máximo de pasos, o cuando interviene un punto de control humano. Sin una condición de parada clara, los agentes pueden entrar en bucle indefinidamente — una preocupación clave de diseño.

Acumulación de contexto Cada ciclo Pensar → Actuar → Observar se añade a la ventana de contexto. La transcripción creciente da al agente "memoria de trabajo" entre pasos. Cuando la ventana se llena, el agente puede comprimir pasos anteriores o transferirlos a la memoria de largo plazo — de lo contrario pierde el hilo del trabajo previo.

Patrones de Agentes

🔄

Agente ReAct

Un único LLM en bucle con acceso a herramientas. En cada turno escribe una traza de razonamiento, elige una herramienta, observa el resultado y repite. Simple de implementar y sorprendentemente capaz para tareas bien definidas.

investigación web depuración de código análisis de datos

🕸️

Multi-Agente

Un agente orquestador descompone la tarea y delega subtareas a agentes especializados — un programador, un investigador, un crítico — cada uno con sus propias herramientas y contexto. Permite paralelismo y especialización profunda.

orquestador sub-agentes trabajo en paralelo

🗺️

Planificar y Ejecutar

Una fase de planificación genera primero la lista completa de pasos sin ejecutarlos. Un ejecutor trabaja luego paso a paso. Separar la planificación de la ejecución reduce la desviación en tareas de largo horizonte.

plan previo ejecutor de pasos replanificación

❌ Sin Agentes

El LLM responde en un solo intento desde sus datos de entrenamiento. No puede buscar nada, ejecutar código para verificar, ni dividir una tarea compleja en pasos. Los problemas de múltiples pasos requieren que el usuario encadene prompts manualmente, copie resultados entre pasos y supervise cada etapa. Los errores se acumulan silenciosamente.

✅ Con Agentes

El LLM planifica, actúa y se autocorrige en un bucle. Busca información actualizada, escribe y ejecuta código para verificar sus respuestas, lee archivos, llama a APIs y prueba enfoques alternativos cuando uno falla — todo sin intervención humana en cada paso. Las tareas complejas se vuelven manejables.

Recorrido por el Bucle

Inyección del objetivo — La tarea y las herramientas entran en el contexto

El agente recibe el objetivo del usuario como prompt de sistema, junto con descripciones de cada herramienta disponible. Estos esquemas de herramientas (nombre, parámetros, descripción) le dicen al LLM lo que puede hacer sin codificar ninguna lógica. El agente también carga memorias de largo plazo relevantes — resultados de tareas pasadas, preferencias del usuario — para que comience informado, no en blanco. Esta configuración de contexto es la "memoria de trabajo" sobre la que el agente razonará.

Pensar → Actuar — Traza de razonamiento y luego invocación de herramienta

El LLM genera un pensamiento: una oración de borrador que explica lo que sabe, lo que falta y qué probar a continuación. Luego emite una solicitud de herramienta estructurada — especificando qué herramienta llamar y con qué entradas — que el sistema host intercepta y enruta. El agente nunca ejecuta código por sí mismo; expresa la intención en un formato estructurado y el host lo ejecuta. Esta separación hace que el agente sea auditable: cada decisión está escrita en la transcripción antes de que ocurra.

Observar — El resultado de la herramienta actualiza el modelo del mundo del agente

El resultado de la herramienta se devuelve al contexto del agente como una nueva observación. El LLM ahora tiene nueva información: un resultado de búsqueda, salida de código, el contenido de un archivo, una respuesta de API. Lo lee, actualiza su razonamiento y decide si el objetivo se ha alcanzado o se necesita otro paso. Este bucle Observar → Pensar → Actuar es lo que hace que los agentes sean adaptativos — responden a lo que realmente ocurrió, no a lo que asumieron que ocurriría.

Convergencia — Reconocer cuándo la tarea está completa

Después de cada observación el LLM verifica una condición de parada: ¿Se ha logrado el objetivo? ¿Se han completado todas las subtareas? ¿Se ha alcanzado un límite máximo de pasos? Cuando determina que la tarea está hecha, emite un mensaje de respuesta final — sintetizando todo el contexto en una respuesta coherente. Los buenos agentes también reportan lo que hicieron (llamadas a herramientas, fuentes) para que el usuario pueda verificar el trabajo, no solo confiar en la conclusión.