LLM Fundamentals – Teaching Diagram

Concepto 1 · Tokens y Ventana de Contexto

La unidad del lenguaje

📝

Texto Crudo

"¡Hola, mundo!"

✂️

Tokenizador

divide palabras en subunidades

🔢

IDs de Token

[15496, 11, 995, 0]

🪟

Ventana de Contexto

límite de 8K – 200K tokens

🕸️

Auto-Atención

Cada token ve a todos los demás

🎲

Siguiente Token

Predicho de uno en uno

¿Qué es un token? No es una palabra — es una subunidad léxica. "Increíble" puede ser 4 tokens; "gato" es 1. Regla general: ~4 caracteres ≈ 1 token, o ~¾ de una palabra. Todo lo que escribes — espacios, puntuación, saltos de línea — consume tokens. El modelo nunca ve letras, solo IDs enteros de un vocabulario fijo (32K–128K entradas).

Ventana de contexto El límite máximo de tokens que el modelo puede "ver" a la vez — prompt + historial + respuesta combinados. GPT-4: 128K. Claude: hasta 200K. Gemini: 1M+. Superar este límite hace que el contenido más antiguo se descarte. Los contextos más largos también son mucho más costosos de procesar — el tiempo crece más rápido que la longitud del contexto.

Cómo se genera el texto, palabra por palabra Los LLMs generan un token a la vez, de izquierda a derecha. Cada nuevo token se añade al contexto y el modelo vuelve a ejecutarse. Una respuesta de 500 palabras ≈ 375 tokens ≈ 375 rondas de procesamiento. Por eso la generación parece rápida al principio y puede ir más lenta a medida que la respuesta crece.

Concepto 2 · Temperatura y Muestreo

Controlando la aleatoriedad

📥

Contexto de Entrada

Todos los tokens hasta ahora

⚙️

Cómputo del Modelo

capas de red neuronal procesan la entrada

📊

Puntuaciones Brutas

probabilidad para cada posible siguiente palabra

🌡️

Temperatura

Baja = preciso · Alta = creativo

📐

Normalizador

puntuaciones → probabilidades de palabras

🎯

Muestreo

filtro top-p / top-k

🔤

Nuevo Token

Se añade → bucle se repite

Temperatura — el dial de creatividad Tras ordenar cada posible siguiente palabra por probabilidad, el modelo debe elegir una. La temperatura controla qué tan aventurera es esa elección. Baja (0–0.4): casi siempre elige la palabra más predecible — precisa y consistente, ideal para código o preguntas factuales. Media (0.7): a veces elige la 2ª o 3ª opción más probable — suena más natural, menos robótica. Alta (1.2+): elige palabras sorprendentes — más creativa pero más propensa a errores. La mayoría de las apps usan entre 0.2 y 0.8.

Top-p — recortando la cola larga Incluso con una temperatura razonable, el modelo asigna pequeñas probabilidades a miles de palabras extrañas. Top-p (p = 0.9) dice: solo considera palabras hasta que su probabilidad acumulada llegue al 90%, luego ignora el resto. Cuando el modelo está seguro, pocas palabras califican. Cuando duda, quedan más opciones. En cualquier caso, las opciones absurdas se eliminan.

Top-k — un límite más simple Solo considera las K palabras más probables e ignora las demás (k = 40 es común). Fácil de entender: con k = 1 el modelo siempre elige la más probable; con k = 50 tiene variedad. La mayoría de los sistemas aplican temperatura primero, luego top-p y top-k juntos como red de seguridad para mantener salidas coherentes.

⚙️

Prompt de Sistema

Un bloque de instrucciones privilegiado que se añade antes del turno del usuario. Define la persona del modelo, sus reglas, formato de salida y restricciones. Todo despliegue LLM en producción usa uno. Los usuarios normalmente nunca lo ven, pero el modelo lo trata como una directiva de alta prioridad y confianza.

Ejemplo Eres un asistente SQL preciso.
Valida siempre los nombres de columnas.
Nunca adivines; pide aclaraciones.

🎯

Zero-Shot

Solo pregunta — sin ejemplos. Funciona bien para tareas que el modelo ha visto extensamente en entrenamiento (traducción, resumen, preguntas básicas). El modelo se basa por completo en el conocimiento aprendido. Rápido y sin esfuerzo, pero el formato y el tono de la salida pueden ser impredecibles.

Ejemplo Resume el siguiente texto
en tres puntos clave:
[texto aquí]

📋

Few-Shot

Proporciona 2–5 ejemplos entrada→salida antes de la consulta real. El modelo infiere el patrón y lo aplica. Mejora drásticamente la consistencia del formato, la coherencia de tono y el manejo de casos borde sin necesidad de ajuste fino. Los ejemplos son "entrenamiento en contexto" que se ejecuta en tiempo de inferencia.

Ejemplo P: ¿Capital de Francia? R: París
P: ¿Capital de Japón? R: Tokio
P: ¿Capital de Brasil? R: Brasilia

💭

Cadena de Pensamiento

Indica al modelo que muestre su razonamiento antes de la respuesta final. "Piensa paso a paso" o "Razonemos esto:" desbloquea mejor desempeño en matemáticas de varios pasos, lógica y planificación. Los tokens de razonamiento son "memoria de trabajo" — el modelo los usa para mantenerse preciso en derivaciones largas.

Ejemplo P: 17 × 24 = ?
Piensa paso a paso.
17×20=340, 17×4=68, 340+68=408

🧩

Por Qué Ocurre

Los LLMs se entrenan para predecir el siguiente token más probable — no para recuperar hechos verificados. Interpolan patrones de los datos de entrenamiento. Cuando se les pregunta algo fuera de esa distribución, extrapolan con confianza hacia la ficción. No existe una "verificación interna de verdad".

sin verdad base completado de patrones corte de entrenamiento

🔬

Tipos Comunes

Factual: fechas, nombres y estadísticas incorrectos afirmados con seguridad. Citas: títulos de papers, autores y URLs inexistentes fabricados. Razonamiento: errores lógicos que parecen correctos. Intrínseca: contradice el documento fuente que se le proporcionó.

errores factuales citas falsas errores lógicos desviación de fuente

🛡️

Cómo Mitigarlas

RAG: ancla las respuestas en documentos recuperables que el modelo puede citar. Temperatura baja: reduce la extrapolación salvaje. Prompt de sistema: "Si no estás seguro, dilo." Cadena de pensamiento: el razonamiento más lento detecta más errores. Verificación: pide al modelo que compruebe su propia respuesta.

anclaje RAG temp baja auto-verificación citas

✍️

Prompting

Cambia lo que preguntas, no el modelo. Usa prompts de sistema, ejemplos few-shot y cadena de pensamiento para guiar el comportamiento en tiempo de inferencia. Cero costo, iteración instantánea, totalmente reversible. El punto de partida correcto para cualquier tarea — agota esta opción antes de gastar en las demás.

CostoGratis

Datos necesariosNinguno

IteraciónInstantánea

ConocimientoSolo entrenamiento

iteración rápida control de formato sin infraestructura

🗄️

RAG

Inyecta datos privados o actualizados en el contexto en tiempo de consulta recuperando documentos relevantes de un almacén vectorial. Sin entrenamiento requerido. Los datos se mantienen frescos — añade documentos nuevos sin tocar el modelo. Las respuestas están fundamentadas y son citables. Ideal para Q&A de documentos, bases de conocimiento y eventos actuales.

CostoSolo recuperación

Datos necesariosDocumentos

IteraciónRápida

ConocimientoTu corpus

datos privados siempre actualizado citable

🎛️

Ajuste Fino

Ajusta los pesos del modelo con tu conjunto de datos etiquetado. Incorpora conocimiento de dominio, estilo y comportamiento directamente en el modelo — salida consistente sin prompts largos. Ideal cuando tienes miles de ejemplos de alta calidad y una tarea estrecha y bien definida. Costoso de entrenar y re-entrenar cuando los datos cambian.

CostoAlto (horas GPU)

Datos necesarios1K–100K ejemplos

IteraciónLenta (reentrenar)

ConocimientoIncorporado

experto en dominio estilo consistente prompts cortos

Fundamentos de LLM

Concepto 1 · Tokens y Ventana de Contexto

Concepto 2 · Temperatura y Muestreo

Ingeniería de Prompts

Prompt de Sistema

Zero-Shot

Few-Shot

Cadena de Pensamiento

Alucinaciones — Cuando los Modelos Inventan

Por Qué Ocurre

Tipos Comunes

Cómo Mitigarlas

❌ Respuesta Alucinada

✅ Respuesta Fundamentada (con RAG)

Prompting vs RAG vs Ajuste Fino

Prompting

RAG

Ajuste Fino