Evolución de los Modelos DeepSeek: De V1 a V3 y R1 – Aprendizaje por recompensas y destilación de datos.

V1 – Arquitectura Fundacional
- Paso 1: Implementación inicial basada en transformers estándar, entrenada en datasets genéricos (libros, web).
- Paso 2: Introducción de preentrenamiento multitarea (traducción, QA, resumen) para mejorar generalización.
- Paso 3: Optimización de la atención esparsa para reducir coste computacional.
- Paso 4: Integración de embeddings contextuales dinámicos para manejar entradas largas (>4k tokens).
- Paso 5: V3 logró un SOTA en GLUE gracias a fine-tuning adaptativo y datos sintéticos generados por IA.
Serie R (Versiones Optimizadas con RL)
- R1 fue el culmen de esta línea:
  - Paso 1: Entrenamiento base con V3 como punto de partida.
  - Paso 2: Aprendizaje por refuerzo (RL) con recompensas híbridas (humanas + automáticas).
  - Paso 3: Mejora de la coherencia a largo plazo en diálogos mediante rollout simulations.
  - Paso 4: Reducción de sesgos tóxicos usando filtros de recompensa negativa.
  - Paso 5: R1 superó a V3 en HumanEval (coding) y MT-Bench (diálogo), con un 40% menos de parámetros.

Con Humanos (RLHF – Reinforcement Learning from Human Feedback)
- Técnica: Humanos puntúan respuestas del modelo para entrenar un modelo de recompensa (RM).
- Ejemplo en DeepSeek:
  - Dataset de preferencias: 500k muestras etiquetadas por evaluadores expertos.
  - RM híbrido: Combinó puntuaciones humanas con métricas automáticas (coherencia, precisión).
- Resultado: Mejora del 25% en alineación ética (evaluado con ETHICS).
Sin Humanos (RLAIF – Reinforcement Learning from AI Feedback)
- Técnica: Usar modelos de IA (ej: V3) para generar preferencias y entrenar el RM.
- Ejemplo en DeepSeek:
  - Auto-generación de datos: V3 creó 1M ejemplos de QA para entrenar el RM.
  - Crítica: El RM juzgaba respuestas basándose en consistencia lógica y falacias detectadas.
- Resultado: Ahorro del 70% en coste de etiquetado humano, manteniendo el 90% de rendimiento.

La destilación fue clave para crear versiones eficientes (R1 vs. V3):

Knowledge Distillation Clásica:
- V3 (maestro) → R1 (estudiante), transfiriendo conocimiento mediante soft targets (probabilidades de salida).
Distilación Modular:
- Descomposición del modelo en submódulos, destilando solo componentes críticos (ej: capas de atención).
Quantización + Distilación:
- Compresión de 32 bits → 8 bits post-destilación, manteniendo el 95% de precisión.
Auto-Destilación:
- R1 se autodestiló en versiones más pequeñas (R1-Lite) usando su propio output como dataset.

La evolución de V1 a R1 refleja tres pilares:

Escalabilidad: De arquitecturas estándar a transformers optimizados con RL.
Eficiencia: Destilación agresiva sin sacrificar capacidades.
Alineación: Combatiendo sesgos mediante recompensas híbridas (humanas + IA).

Como dijo el equipo de DeepSeek en su paper de R1:

«La IA del futuro no será la más grande, sino la que mejor equilibre inteligencia, ética y eficiencia».

Y tú, ¿prefieres modelos grandes y lentos o pequeños y ágiles?