Tokens, ventanas de contexto, temperatura, ingeniería de prompts, alucinaciones y cuándo usar RAG vs. ajuste fino — los conceptos clave que explican cómo funcionan los modelos de lenguaje grandes.
p = 0.9) dice: solo considera palabras hasta que su probabilidad acumulada llegue al 90%, luego ignora el resto. Cuando el modelo está seguro, pocas palabras califican. Cuando duda, quedan más opciones. En cualquier caso, las opciones absurdas se eliminan.
k = 40 es común). Fácil de entender: con k = 1 el modelo siempre elige la más probable; con k = 50 tiene variedad. La mayoría de los sistemas aplican temperatura primero, luego top-p y top-k juntos como red de seguridad para mantener salidas coherentes.
El arte de diseñar entradas que producen de forma fiable la salida deseada — sin cambiar los pesos del modelo. Cuatro técnicas que todo practicante necesita conocer.
Un bloque de instrucciones privilegiado que se añade antes del turno del usuario. Define la persona del modelo, sus reglas, formato de salida y restricciones. Todo despliegue LLM en producción usa uno. Los usuarios normalmente nunca lo ven, pero el modelo lo trata como una directiva de alta prioridad y confianza.
Solo pregunta — sin ejemplos. Funciona bien para tareas que el modelo ha visto extensamente en entrenamiento (traducción, resumen, preguntas básicas). El modelo se basa por completo en el conocimiento aprendido. Rápido y sin esfuerzo, pero el formato y el tono de la salida pueden ser impredecibles.
Proporciona 2–5 ejemplos entrada→salida antes de la consulta real. El modelo infiere el patrón y lo aplica. Mejora drásticamente la consistencia del formato, la coherencia de tono y el manejo de casos borde sin necesidad de ajuste fino. Los ejemplos son "entrenamiento en contexto" que se ejecuta en tiempo de inferencia.
Indica al modelo que muestre su razonamiento antes de la respuesta final. "Piensa paso a paso" o "Razonemos esto:" desbloquea mejor desempeño en matemáticas de varios pasos, lógica y planificación. Los tokens de razonamiento son "memoria de trabajo" — el modelo los usa para mantenerse preciso en derivaciones largas.
Los LLMs generan texto que suena plausible. "Plausible" y "verdadero" no son lo mismo. Entender por qué ocurren las alucinaciones es el primer paso para mitigarlas.
Los LLMs se entrenan para predecir el siguiente token más probable — no para recuperar hechos verificados. Interpolan patrones de los datos de entrenamiento. Cuando se les pregunta algo fuera de esa distribución, extrapolan con confianza hacia la ficción. No existe una "verificación interna de verdad".
Factual: fechas, nombres y estadísticas incorrectos afirmados con seguridad. Citas: títulos de papers, autores y URLs inexistentes fabricados. Razonamiento: errores lógicos que parecen correctos. Intrínseca: contradice el documento fuente que se le proporcionó.
RAG: ancla las respuestas en documentos recuperables que el modelo puede citar. Temperatura baja: reduce la extrapolación salvaje. Prompt de sistema: "Si no estás seguro, dilo." Cadena de pensamiento: el razonamiento más lento detecta más errores. Verificación: pide al modelo que compruebe su propia respuesta.
Tres palancas para mejorar la salida de un LLM. No son mutuamente excluyentes — los sistemas reales suelen combinar las tres. La clave es saber qué problema resuelve cada una.
Cambia lo que preguntas, no el modelo. Usa prompts de sistema, ejemplos few-shot y cadena de pensamiento para guiar el comportamiento en tiempo de inferencia. Cero costo, iteración instantánea, totalmente reversible. El punto de partida correcto para cualquier tarea — agota esta opción antes de gastar en las demás.
Inyecta datos privados o actualizados en el contexto en tiempo de consulta recuperando documentos relevantes de un almacén vectorial. Sin entrenamiento requerido. Los datos se mantienen frescos — añade documentos nuevos sin tocar el modelo. Las respuestas están fundamentadas y son citables. Ideal para Q&A de documentos, bases de conocimiento y eventos actuales.
Ajusta los pesos del modelo con tu conjunto de datos etiquetado. Incorpora conocimiento de dominio, estilo y comportamiento directamente en el modelo — salida consistente sin prompts largos. Ideal cuando tienes miles de ejemplos de alta calidad y una tarea estrecha y bien definida. Costoso de entrenar y re-entrenar cuando los datos cambian.