Serie V (Versiones Base)

  1. V1 – Arquitectura Fundacional
    • Paso 1: Implementación inicial basada en transformers estándar, entrenada en datasets genéricos (libros, web).
    • Paso 2: Introducción de preentrenamiento multitarea (traducción, QA, resumen) para mejorar generalización.
    • Paso 3: Optimización de la atención esparsa para reducir coste computacional.
    • Paso 4: Integración de embeddings contextuales dinámicos para manejar entradas largas (>4k tokens).
    • Paso 5: V3 logró un SOTA en GLUE gracias a fine-tuning adaptativo y datos sintéticos generados por IA.
  2. Serie R (Versiones Optimizadas con RL)
    • R1 fue el culmen de esta línea:
      • Paso 1: Entrenamiento base con V3 como punto de partida.
      • Paso 2: Aprendizaje por refuerzo (RL) con recompensas híbridas (humanas + automáticas).
      • Paso 3: Mejora de la coherencia a largo plazo en diálogos mediante rollout simulations.
      • Paso 4: Reducción de sesgos tóxicos usando filtros de recompensa negativa.
      • Paso 5: R1 superó a V3 en HumanEval (coding) y MT-Bench (diálogo), con un 40% menos de parámetros.

Aprendizaje por Recompensas: Con y Sin Humanos

  1. Con Humanos (RLHF – Reinforcement Learning from Human Feedback)
    • Técnica: Humanos puntúan respuestas del modelo para entrenar un modelo de recompensa (RM).
    • Ejemplo en DeepSeek:
      • Dataset de preferencias: 500k muestras etiquetadas por evaluadores expertos.
      • RM híbrido: Combinó puntuaciones humanas con métricas automáticas (coherencia, precisión).
    • Resultado: Mejora del 25% en alineación ética (evaluado con ETHICS).
  2. Sin Humanos (RLAIF – Reinforcement Learning from AI Feedback)
    • Técnica: Usar modelos de IA (ej: V3) para generar preferencias y entrenar el RM.
    • Ejemplo en DeepSeek:
      • Auto-generación de datos: V3 creó 1M ejemplos de QA para entrenar el RM.
      • Crítica: El RM juzgaba respuestas basándose en consistencia lógica y falacias detectadas.
    • Resultado: Ahorro del 70% en coste de etiquetado humano, manteniendo el 90% de rendimiento.

Destilación de Modelos en DeepSeek

La destilación fue clave para crear versiones eficientes (R1 vs. V3):

  1. Knowledge Distillation Clásica:
    • V3 (maestro) → R1 (estudiante), transfiriendo conocimiento mediante soft targets (probabilidades de salida).
  2. Distilación Modular:
    • Descomposición del modelo en submódulos, destilando solo componentes críticos (ej: capas de atención).
  3. Quantización + Distilación:
    • Compresión de 32 bits → 8 bits post-destilación, manteniendo el 95% de precisión.
  4. Auto-Destilación:
    • R1 se autodestiló en versiones más pequeñas (R1-Lite) usando su propio output como dataset.

Conclusión: El Legado de DeepSeek

La evolución de V1 a R1 refleja tres pilares:

  1. Escalabilidad: De arquitecturas estándar a transformers optimizados con RL.
  2. Eficiencia: Destilación agresiva sin sacrificar capacidades.
  3. Alineación: Combatiendo sesgos mediante recompensas híbridas (humanas + IA).

Como dijo el equipo de DeepSeek en su paper de R1:

«La IA del futuro no será la más grande, sino la que mejor equilibre inteligencia, ética y eficiencia».

Y tú, ¿prefieres modelos grandes y lentos o pequeños y ágiles?