Volver a Aprende IA | Inicio
IA / LLMs · Referencia educativa

Fundamentos de LLM

Tokens, ventanas de contexto, temperatura, ingeniería de prompts, alucinaciones y cuándo usar RAG vs. ajuste fino — los conceptos clave que explican cómo funcionan los modelos de lenguaje grandes.

Concepto 1 · Tokens y Ventana de Contexto

La unidad del lenguaje
📝
Texto Crudo
"¡Hola, mundo!"
✂️
Tokenizador
divide palabras en subunidades
🔢
IDs de Token
[15496, 11, 995, 0]
🪟
Ventana de Contexto
límite de 8K – 200K tokens
🕸️
Auto-Atención
Cada token ve a todos los demás
🎲
Siguiente Token
Predicho de uno en uno
¿Qué es un token? No es una palabra — es una subunidad léxica. "Increíble" puede ser 4 tokens; "gato" es 1. Regla general: ~4 caracteres ≈ 1 token, o ~¾ de una palabra. Todo lo que escribes — espacios, puntuación, saltos de línea — consume tokens. El modelo nunca ve letras, solo IDs enteros de un vocabulario fijo (32K–128K entradas).
Ventana de contexto El límite máximo de tokens que el modelo puede "ver" a la vez — prompt + historial + respuesta combinados. GPT-4: 128K. Claude: hasta 200K. Gemini: 1M+. Superar este límite hace que el contenido más antiguo se descarte. Los contextos más largos también son mucho más costosos de procesar — el tiempo crece más rápido que la longitud del contexto.
Cómo se genera el texto, palabra por palabra Los LLMs generan un token a la vez, de izquierda a derecha. Cada nuevo token se añade al contexto y el modelo vuelve a ejecutarse. Una respuesta de 500 palabras ≈ 375 tokens ≈ 375 rondas de procesamiento. Por eso la generación parece rápida al principio y puede ir más lenta a medida que la respuesta crece.

Concepto 2 · Temperatura y Muestreo

Controlando la aleatoriedad
📥
Contexto de Entrada
Todos los tokens hasta ahora
⚙️
Cómputo del Modelo
capas de red neuronal procesan la entrada
📊
Puntuaciones Brutas
probabilidad para cada posible siguiente palabra
🌡️
Temperatura
Baja = preciso · Alta = creativo
📐
Normalizador
puntuaciones → probabilidades de palabras
🎯
Muestreo
filtro top-p / top-k
🔤
Nuevo Token
Se añade → bucle se repite
Temperatura — el dial de creatividad Tras ordenar cada posible siguiente palabra por probabilidad, el modelo debe elegir una. La temperatura controla qué tan aventurera es esa elección. Baja (0–0.4): casi siempre elige la palabra más predecible — precisa y consistente, ideal para código o preguntas factuales. Media (0.7): a veces elige la 2ª o 3ª opción más probable — suena más natural, menos robótica. Alta (1.2+): elige palabras sorprendentes — más creativa pero más propensa a errores. La mayoría de las apps usan entre 0.2 y 0.8.
Top-p — recortando la cola larga Incluso con una temperatura razonable, el modelo asigna pequeñas probabilidades a miles de palabras extrañas. Top-p (p = 0.9) dice: solo considera palabras hasta que su probabilidad acumulada llegue al 90%, luego ignora el resto. Cuando el modelo está seguro, pocas palabras califican. Cuando duda, quedan más opciones. En cualquier caso, las opciones absurdas se eliminan.
Top-k — un límite más simple Solo considera las K palabras más probables e ignora las demás (k = 40 es común). Fácil de entender: con k = 1 el modelo siempre elige la más probable; con k = 50 tiene variedad. La mayoría de los sistemas aplican temperatura primero, luego top-p y top-k juntos como red de seguridad para mantener salidas coherentes.

Ingeniería de Prompts

El arte de diseñar entradas que producen de forma fiable la salida deseada — sin cambiar los pesos del modelo. Cuatro técnicas que todo practicante necesita conocer.

⚙️

Prompt de Sistema

Un bloque de instrucciones privilegiado que se añade antes del turno del usuario. Define la persona del modelo, sus reglas, formato de salida y restricciones. Todo despliegue LLM en producción usa uno. Los usuarios normalmente nunca lo ven, pero el modelo lo trata como una directiva de alta prioridad y confianza.

Ejemplo Eres un asistente SQL preciso.
Valida siempre los nombres de columnas.
Nunca adivines; pide aclaraciones.
🎯

Zero-Shot

Solo pregunta — sin ejemplos. Funciona bien para tareas que el modelo ha visto extensamente en entrenamiento (traducción, resumen, preguntas básicas). El modelo se basa por completo en el conocimiento aprendido. Rápido y sin esfuerzo, pero el formato y el tono de la salida pueden ser impredecibles.

Ejemplo Resume el siguiente texto
en tres puntos clave:
[texto aquí]
📋

Few-Shot

Proporciona 2–5 ejemplos entrada→salida antes de la consulta real. El modelo infiere el patrón y lo aplica. Mejora drásticamente la consistencia del formato, la coherencia de tono y el manejo de casos borde sin necesidad de ajuste fino. Los ejemplos son "entrenamiento en contexto" que se ejecuta en tiempo de inferencia.

Ejemplo P: ¿Capital de Francia? R: París
P: ¿Capital de Japón? R: Tokio
P: ¿Capital de Brasil? R: Brasilia
💭

Cadena de Pensamiento

Indica al modelo que muestre su razonamiento antes de la respuesta final. "Piensa paso a paso" o "Razonemos esto:" desbloquea mejor desempeño en matemáticas de varios pasos, lógica y planificación. Los tokens de razonamiento son "memoria de trabajo" — el modelo los usa para mantenerse preciso en derivaciones largas.

Ejemplo P: 17 × 24 = ?
Piensa paso a paso.
17×20=340, 17×4=68, 340+68=408

Alucinaciones — Cuando los Modelos Inventan

Los LLMs generan texto que suena plausible. "Plausible" y "verdadero" no son lo mismo. Entender por qué ocurren las alucinaciones es el primer paso para mitigarlas.

🧩

Por Qué Ocurre

Los LLMs se entrenan para predecir el siguiente token más probable — no para recuperar hechos verificados. Interpolan patrones de los datos de entrenamiento. Cuando se les pregunta algo fuera de esa distribución, extrapolan con confianza hacia la ficción. No existe una "verificación interna de verdad".

sin verdad base completado de patrones corte de entrenamiento
🔬

Tipos Comunes

Factual: fechas, nombres y estadísticas incorrectos afirmados con seguridad. Citas: títulos de papers, autores y URLs inexistentes fabricados. Razonamiento: errores lógicos que parecen correctos. Intrínseca: contradice el documento fuente que se le proporcionó.

errores factuales citas falsas errores lógicos desviación de fuente
🛡️

Cómo Mitigarlas

RAG: ancla las respuestas en documentos recuperables que el modelo puede citar. Temperatura baja: reduce la extrapolación salvaje. Prompt de sistema: "Si no estás seguro, dilo." Cadena de pensamiento: el razonamiento más lento detecta más errores. Verificación: pide al modelo que compruebe su propia respuesta.

anclaje RAG temp baja auto-verificación citas

❌ Respuesta Alucinada

P: ¿Quién inventó el teléfono? Alexander Graham Bell lo patentó en 1876. Nació en Edimburgo en 1850 y estudió en la Universidad de Oxford, donde desarrolló sus teorías acústicas con el Prof. James Whitmore.

✅ Respuesta Fundamentada (con RAG)

P: ¿Quién inventó el teléfono? Según la fuente proporcionada: Alexander Graham Bell patentó el teléfono en 1876. Nació en Edimburgo en 1847 y estudió en la Universidad de Edimburgo. [Fuente: extracto enciclopédico, párr. 2]

Prompting vs RAG vs Ajuste Fino

Tres palancas para mejorar la salida de un LLM. No son mutuamente excluyentes — los sistemas reales suelen combinar las tres. La clave es saber qué problema resuelve cada una.

✍️

Prompting

Cambia lo que preguntas, no el modelo. Usa prompts de sistema, ejemplos few-shot y cadena de pensamiento para guiar el comportamiento en tiempo de inferencia. Cero costo, iteración instantánea, totalmente reversible. El punto de partida correcto para cualquier tarea — agota esta opción antes de gastar en las demás.

CostoGratis
Datos necesariosNinguno
IteraciónInstantánea
ConocimientoSolo entrenamiento
iteración rápida control de formato sin infraestructura
🗄️

RAG

Inyecta datos privados o actualizados en el contexto en tiempo de consulta recuperando documentos relevantes de un almacén vectorial. Sin entrenamiento requerido. Los datos se mantienen frescos — añade documentos nuevos sin tocar el modelo. Las respuestas están fundamentadas y son citables. Ideal para Q&A de documentos, bases de conocimiento y eventos actuales.

CostoSolo recuperación
Datos necesariosDocumentos
IteraciónRápida
ConocimientoTu corpus
datos privados siempre actualizado citable
🎛️

Ajuste Fino

Ajusta los pesos del modelo con tu conjunto de datos etiquetado. Incorpora conocimiento de dominio, estilo y comportamiento directamente en el modelo — salida consistente sin prompts largos. Ideal cuando tienes miles de ejemplos de alta calidad y una tarea estrecha y bien definida. Costoso de entrenar y re-entrenar cuando los datos cambian.

CostoAlto (horas GPU)
Datos necesarios1K–100K ejemplos
IteraciónLenta (reentrenar)
ConocimientoIncorporado
experto en dominio estilo consistente prompts cortos
Lectura Relacionada IA Agéntica – Diagrama educativo Cómo los agentes usan LLMs en bucles para tareas complejas
Lectura Relacionada Model Context Protocol – Diagrama educativo Cómo los agentes se conectan a herramientas y datos externos vía MCP
Lectura Relacionada Pipeline RAG – Diagrama educativo Análisis profundo de la generación aumentada por recuperación