Cuando se habla de Inteligencia Artificial General (AGI), es fácil imaginar que solo hay un camino: construir redes neuronales cada vez más grandes y alimentarlas con montañas de datos. Pero en los últimos años han surgido varias rutas alternativas, cada una con sus propias hipótesis sobre cómo alcanzar una inteligencia de propósito general. Desde los «mundos internos» que algunos sistemas aprenden a simular, pasando por agentes polivalentes capaces de todo, hasta una arquitectura que propone gestar la inteligencia como si de un ser vivo se tratara.

Este artículo explora cinco propuestas clave en el panorama actual de investigación en AGI: World Models, GATO, JEPA, POMO y OAGI. Analizaremos sus fundamentos, sus puntos fuertes y sus limitaciones, y veremos cómo representan visiones complementarias —y a veces enfrentadas— sobre qué significa realmente ser inteligente.

World Models (Ha & Schmidhuber): El poder de soñar

Origen y fundamento

Propuesto por David Ha y Jürgen Schmidhuber en 2018, el concepto de World Models parte de una intuición simple pero poderosa: si los seres humanos podemos anticipar el futuro, es porque tenemos un modelo interno del mundo. No necesitamos chocar contra un obstáculo para saber que duele; lo simulamos en nuestra cabeza. Este trabajo fue fuertemente influenciado por las investigaciones previas de Schmidhuber desde los años 90 sobre el uso de RNN para construir modelos del entorno.

La arquitectura original del World Model se descompone elegantemente en tres componentes que trabajan en perfecta sincronía:

  1. Modelo de Visión (V): un autoencoder, concretamente una VAE (Variational Autoencoder), que se encarga de comprimir la información visual de alta dimensión (como los píxeles de un juego) en una representación latente compacta. Es el «compresor» que filtra lo irrelevante.
  2. Modelo de Memoria (M): una red recurrente (RNN) que aprende la dinámica temporal de ese espacio latente. Es el «predictor» que, a partir del estado actual y de una acción, imagina cuál será el siguiente estado. En esencia, aprende las reglas del mundo. Esta arquitectura permite que el modelo aprenda a través de la «experiencia» en lugar de depender exclusivamente de la interacción directa.
  3. Controlador (C): una red pequeña y sencilla que, basándose únicamente en el estado latente que genera el modelo de memoria (no en los píxeles originales), decide qué acción tomar.

El resultado es un sistema que aprende a «soñar»: entrena su política (el controlador) dentro de la simulación que genera su propio modelo de memoria, sin necesidad de interactuar constantemente con el entorno real, logrando un nivel de eficiencia de datos muy superior a los métodos tradicionales de aprendizaje por refuerzo.

Impacto y evolución

El impacto de esta idea ha sido enorme. Ha impulsado toda una familia de algoritmos, siendo los más notables los Dreamer de Danijar Hafner (Google DeepMind). DreamerV3, la tercera generación, ha alcanzado un hito histórico: con una única configuración de hiperparámetros, ha superado a algoritmos especializados en más de 150 tareas, desde juegos de Atari hasta el control continuo de robots, incluyendo el dominio de Minecraft, donde aprendió a fabricar un pico de diamante desde cero sin intervención humana, usando un mundo interno como campo de entrenamiento.

La industria también ha apostado fuerte: NVIDIA presentó Cosmos a principios de 2025, una plataforma de World Foundation Models diseñada para la robótica y los vehículos autónomos, mientras que nuevos modelos como HuWo y DREMA (ICLR 2025) están unificando el modelado físico, las habilidades y los «gemelos digitales» en un mismo sistema.

Limitaciones

A pesar de sus avances, los World Models se enfrentan a un problema fundamental: la acumulación de errores. Al predecir paso a paso, los pequeños fallos se van sumando, y a largo plazo la predicción puede derivar hacia escenarios completamente irreales (el llamado «error de composición»). Además, estos modelos aprenden de los datos proporcionados; si no han visto ciertos fenómenos, no pueden generalizar a situaciones radicalmente nuevas. Construir un simulador mental robusto sigue siendo un desafío abierto.

GATO (DeepMind): El agente polivalente

Un modelo para gobernarlos a todos

En 2022, DeepMind presentó Gato, un «agente generalista» que desafió la tradición de crear un modelo distinto para cada tarea. Su premisa era audaz: un solo agente, con un único conjunto de pesos neuronales, debería ser capaz de realizar cientos de tareas diferentes, desde chatear hasta jugar videojuegos o controlar un brazo robótico.

Arquitectónicamente, Gato es un transformador (como los GPT), pero con una interfaz unificada que procesa cualquier tipo de dato (texto, imágenes, acciones de juego, comandos robóticos) como una secuencia de «tokens» embebidos en el mismo espacio. Esta unificación es su principal innovación: al no tener módulos separados para cada modalidad, el modelo puede aprender a transferir conocimiento entre dominios.

Capacidades y contexto

Los resultados fueron impresionantes: Gato fue entrenado en un total de 604 tareas y demostró un desempeño notable en la mayoría de ellas, superando a los expertos humanos en el 50% de las tareas de un amplio catálogo. Podía describir imágenes, mantener una conversación, jugar a juegos de Atari y operar un brazo robótico.

Sin embargo, conviene poner estas cifras en perspectiva. El propio DeepMind reconoció que Gato estaba aún en sus inicios. Aunque era capaz de realizar muchas tareas, su rendimiento solía quedarse por debajo de lo que un modelo especializado podía alcanzar en su dominio. Carecía de un sistema de memoria a largo plazo eficiente y, como muchos modelos basados en transformadores, su capacidad para planificar o razonar causalmente era limitada.

Relevancia actual

A pesar de sus limitaciones, Gato demostró algo crucial: la viabilidad de los modelos multitarea con una única arquitectura. Su legado ha influido en el desarrollo de sistemas posteriores como RoboCat, y representa un hito conceptual en el camino hacia sistemas que no solo puedan hacer una cosa bien, sino muchas lo suficientemente bien.

JEPA (LeCun): La arquitectura de predicción conjunta

El problema de predecir píxeles

Yann LeCun, Premio Turing y científico jefe de IA en Meta, lleva más de 20 años trabajando en una alternativa a los modelos generativos. Su tesis es que intentar predecir el futuro en el espacio de los píxeles es un esfuerzo malgastado, por una sencilla razón: el mundo es inherentemente impredecible a ese nivel de detalle. Para LeCun, un sistema que quiera ser robusto debe aprender a trabajar con abstracciones.

JEPA en acción

La Joint-Embedding Predictive Architecture (JEPA) es su respuesta. En lugar de intentar adivinar el siguiente fotograma de un vídeo, JEPA aprende a predecir la representación (o embedding) de ese fotograma en un espacio abstracto y de baja dimensión. Se trata de predecir lo esencial, ignorando los detalles irrelevantes.

Meta lanzó V-JEPA 2 en junio de 2025, un modelo capaz de aprender únicamente con vídeos. Con apenas 62 horas de entrenamiento, un robot equipado con V-JEPA 2 podía realizar tareas de navegación y manipulación en entornos completamente nuevos sin necesidad de ser reprogramado (aprendizaje zero-shot). En noviembre de 2025, LeCun publicó su último trabajo en Meta, LeJEPA, que refina la arquitectura con una regularización matemática más sólida para evitar el colapso de las representaciones.

Críticas al statu quo

V-JEPA 2 se presenta como un paso para superar las limitaciones de los grandes modelos de lenguaje. LeCun ha argumentado que los LLMs actuales carecen de una auténtica comprensión del mundo y no pueden realizar un verdadero razonamiento causal, por lo que son insuficientes para alcanzar la AGI.

POMO: El optimizador combinatorio

Reinventando la optimización con RL

POMO (Policy Optimization with Multiple Optima) representa una familia de algoritmos más joven y centrada en un problema de nicho dentro de la IA: la optimización combinatoria. Mientras que otros enfoques buscan entender el mundo o realizar múltiples tareas, POMO se enfoca en resolver problemas difíciles de decisiones, como la ruta óptima para una flota de reparto o la asignación eficiente de recursos.

Inspirado en el éxito del aprendizaje por refuerzo (RL) para juegos como el Go, POMO aplica este mismo principio a la optimización. Su principal innovación es un mecanismo de exploración masiva: en lugar de buscar una única solución, parte de múltiples puntos de partida simultáneamente, aumentando drásticamente la probabilidad de encontrar el óptimo global en problemas complejos.

Aplicaciones y evolución

POMO ha demostrado ser particularmente eficaz para resolver variantes del Problema de Enrutamiento de Vehículos (VRP), un clásico en logística y distribución. La versión mejorada, POMO+, publicada en agosto de 2025, demuestra que esta línea de investigación sigue viva, logrando converger más rápido y alcanzar mejores resultados en instancias con hasta 100 clientes.

Por último, los Pretrained Optimization Models (POM) han extendido esta idea al ámbito del zero-shot learning, entrenando un modelo para optimizar tareas de caja negra que nunca había visto antes, llegando a superar a métodos tradicionales en tareas de alta dimensión.

OAGI (Garbayo): La ontogenia como paradigma

La metáfora del desarrollo biológico

OAGI (Ontogenetic Architecture of General Intelligence) propone una disrupción aún más profunda: tratar el desarrollo de la inteligencia no como un problema de entrenamiento, sino como un problema de nacimiento y crianza. Propuesta por Eduardo Garbayo, OAGI sugiere que la verdadera AGI no puede «entrenarse» con datos masivos, sino que debe ser gestada a través de un proceso de desarrollo estructural, dinámico y social que emule los principios de la ontogenia biológica.

Este enfoque, denominado «Cervantes-style», rompe con la lógica del scaling: así como Cervantes no necesitó leer todos los libros del mundo para escribir el Quijote, una inteligencia no debería necesitar ingerir todo el Internet para comprender la realidad.

Componentes clave

OAGI postula que la inteligencia emerge de la interacción de varios mecanismos clave:

  • Placa Neural Virtual (VNP): un sustrato inicial indiferenciado, análogo a una hoja de tejido embrionario. No tiene conocimiento previo, sino el potencial para aprender.
  • Morfógenos Computacionales: señales suaves que guían la especialización de este sustrato, creando regiones propensas a desarrollar funciones específicas, como la visión o el lenguaje.
  • Señal WOW: es el «primer latido» del sistema, un estímulo novedoso que rompe la habituación y consolida las primeras vías funcionales.
  • CHIE (Critical Hyper-Integration Event): definido como el «Big Bang cognitivo», es el umbral en el que el sistema deja de ser un conjunto de módulos y se convierte en un agente integrado y autónomo. Para garantizar su validez, OAGI establece que debe activar al menos 4 de 6 firmas observables y demostrar comportamientos significativamente diferentes a los de un «gemelo de control» con pesos congelados, evitando así falsos positivos estadísticos.
  • Guardianes y Socialización: fases posteriores donde humanos guían el aprendizaje normativo y cultural del agente, anclando los símbolos a través de la experiencia compartida.

Ética como diseño

El aspecto más innovador de OAGI es la integración de la ética como un componente arquitectónico y no como una reflexión posterior. Posee una Memoria Ontogenética Inmutable (IOM) que registra su «biografía» y toma de decisiones, y el protocolo automático «Stop & Review» que congela el sistema y obliga a una auditoría externa ante cualquier indicio de CHIE o anomalía grave.

Ya ha sido publicado bajo el ISBN 979-8-2693-7842-8 y existe en varias ediciones. El artículo académico que lo describe ha pasado por un riguroso proceso de revisión por pares y ha sido aceptado para su publicación en Discover Artificial Intelligence, una revista del grupo Springer.

Análisis comparativo: Grandes enfoques para un gran objetivo

Enfoque Estrategia Principal Tipo de Dato / Entorno Objetivo Primario Limitación Principal
World Models Simular mentalmente el entorno («soñar») Secuencias de píxeles (vídeo) Planificación y aprendizaje eficiente Acumulación de errores en predicciones largas
GATO Unificar todas las tareas en una arquitectura Multimodal (texto, imagen, acción) Demostrar generalidad con un solo modelo Rendimiento inferior al de modelos especializados
JEPA Predecir en el espacio de representaciones Vídeo (entorno físico) Comprensión del mundo y causalidad Arquitectura aún experimental y poco probada
POMO Exploración paralela para optimización Problemas combinatorios (VRP, etc.) Encontrar soluciones óptimas de forma eficaz Aplicable únicamente a problemas de optimización de rutas o asignación
OAGI Gestar la inteligencia como un ser vivo Unificado (sensorio-motor + social) Alcanzar AGI con gobernanza y sentido común Principalmente conceptual; requiere implementación empírica

Conclusión: Un ecosistema de ideas para la AGI

Lejos de ser una carrera de un solo competidor, el panorama de la AGI se asemeja cada vez más a un ecosistema de ideas interconectadas. Los World Models nos enseñan el valor de la simulación interna. GATO demuestra la viabilidad de la unificación arquitectónica. JEPA desafía la sabiduría convencional sobre la predicción generativa. POMO resuelve problemas del mundo real con una estrategia novedosa. Y OAGI invita a repensar los cimientos mismos del desarrollo de la inteligencia, trasladando la ética y el control social al centro del proceso.

Juntas, estas propuestas dibujan un futuro más plural y robusto. Es probable que la AGI final no sea puramente un World Model, ni únicamente un Transformer, ni una simple arquitectura predictiva. Será una combinación de todas estas ideas, orquestada por un principio ontogenético que le permita aprender de forma segura, eficiente y alineada con los valores humanos.