Serie V (Versiones Base)
- V1 – Arquitectura Fundacional
- Paso 1: Implementación inicial basada en transformers estándar, entrenada en datasets genéricos (libros, web).
- Paso 2: Introducción de preentrenamiento multitarea (traducción, QA, resumen) para mejorar generalización.
- Paso 3: Optimización de la atención esparsa para reducir coste computacional.
- Paso 4: Integración de embeddings contextuales dinámicos para manejar entradas largas (>4k tokens).
- Paso 5: V3 logró un SOTA en GLUE gracias a fine-tuning adaptativo y datos sintéticos generados por IA.
- Serie R (Versiones Optimizadas con RL)
- R1 fue el culmen de esta línea:
- Paso 1: Entrenamiento base con V3 como punto de partida.
- Paso 2: Aprendizaje por refuerzo (RL) con recompensas híbridas (humanas + automáticas).
- Paso 3: Mejora de la coherencia a largo plazo en diálogos mediante rollout simulations.
- Paso 4: Reducción de sesgos tóxicos usando filtros de recompensa negativa.
- Paso 5: R1 superó a V3 en HumanEval (coding) y MT-Bench (diálogo), con un 40% menos de parámetros.
- R1 fue el culmen de esta línea:
Aprendizaje por Recompensas: Con y Sin Humanos
- Con Humanos (RLHF – Reinforcement Learning from Human Feedback)
- Técnica: Humanos puntúan respuestas del modelo para entrenar un modelo de recompensa (RM).
- Ejemplo en DeepSeek:
- Dataset de preferencias: 500k muestras etiquetadas por evaluadores expertos.
- RM híbrido: Combinó puntuaciones humanas con métricas automáticas (coherencia, precisión).
- Resultado: Mejora del 25% en alineación ética (evaluado con ETHICS).
- Sin Humanos (RLAIF – Reinforcement Learning from AI Feedback)
- Técnica: Usar modelos de IA (ej: V3) para generar preferencias y entrenar el RM.
- Ejemplo en DeepSeek:
- Auto-generación de datos: V3 creó 1M ejemplos de QA para entrenar el RM.
- Crítica: El RM juzgaba respuestas basándose en consistencia lógica y falacias detectadas.
- Resultado: Ahorro del 70% en coste de etiquetado humano, manteniendo el 90% de rendimiento.
Destilación de Modelos en DeepSeek
La destilación fue clave para crear versiones eficientes (R1 vs. V3):
- Knowledge Distillation Clásica:
- V3 (maestro) → R1 (estudiante), transfiriendo conocimiento mediante soft targets (probabilidades de salida).
- Distilación Modular:
- Descomposición del modelo en submódulos, destilando solo componentes críticos (ej: capas de atención).
- Quantización + Distilación:
- Compresión de 32 bits → 8 bits post-destilación, manteniendo el 95% de precisión.
- Auto-Destilación:
- R1 se autodestiló en versiones más pequeñas (R1-Lite) usando su propio output como dataset.
Conclusión: El Legado de DeepSeek
La evolución de V1 a R1 refleja tres pilares:
- Escalabilidad: De arquitecturas estándar a transformers optimizados con RL.
- Eficiencia: Destilación agresiva sin sacrificar capacidades.
- Alineación: Combatiendo sesgos mediante recompensas híbridas (humanas + IA).
Como dijo el equipo de DeepSeek en su paper de R1:
«La IA del futuro no será la más grande, sino la que mejor equilibre inteligencia, ética y eficiencia».
Y tú, ¿prefieres modelos grandes y lentos o pequeños y ágiles?