Una tendencia actual en la inteligencia artificial podría tener enormes implicaciones en la forma en que se utiliza la tecnología en la investigación científica.
Los sistemas de aprendizaje automático, como los grandes modelos de lenguaje (LLM), que convierten las instrucciones en texto, imágenes y video, se están volviendo cada vez más sofisticados y continúan logrando avances asombrosos, incluso en la ciencia. Pero tales herramientas de ‘IA generativa’ también tienen limitaciones. El enfoque no siempre hace predicciones precisas sobre el mundo físico, y podría fallar al modelar correctamente lo que sucedería si un auto se cayera por el borde de un precipicio, por ejemplo. Esto tendría implicaciones para el desarrollo de robots impulsados por IA y vehículos autónomos eficaces y seguros.
Algunos investigadores, entre ellos el científico de la computación y pionero de la IA Yann LeCun, quien fundó la firma Advanced Machine Intelligence (AMI) Labs en París, han centrado su atención en un tipo diferente de herramienta de IA, desarrollando sistemas conocidos como ‘modelos de mundo’ que se entrenan con datos del mundo real y pueden recrear entornos virtuales, interactivos y en 3D.
El enfoque está atrayendo una enorme inversión y un gran interés comercial. AMI Labs — que está adoptando un enfoque radical hacia los modelos del mundo — ha recaudado más de US$1.000 millones, una inyección inicial de capital récord para una empresa europea. Los gigantes tecnológicos como Google y Nvidia también están desarrollando modelos del mundo, al igual que varias otras empresas emergentes.
¿Qué es un modelo del mundo?
Existen varias definiciones de lo que es un modelo del mundo. In the broadest sense, any neural network trained on data about the real world (or even about some alternative universe) has some sort of model of a world embedded in it. Pero en los últimos dos años aproximadamente, muchos investigadores han comenzado a utilizar el término para describir una IA capaz de generar un mundo coherente, explorable y a menudo interactivo que recuerda a un videojuego en primera persona. Un modelo del mundo tiene que ‘saber’ lo suficiente sobre física como para que, si el usuario empuja un objeto fuera de una mesa, el objeto se caiga.
Los modelos de mundo también ofrecen una experiencia más interactiva para el usuario que la generación de imágenes o material de video a partir de indicaciones de texto. Por ejemplo, el modelo de mundo Genie 3 de Google Deepmind, que la compañía lanzó en agosto de 2025, utiliza descripciones de texto simples para generar entornos fotorrealistas que pueden explorarse en tiempo real.
¿Con qué tipo de datos se entrenan los modelos de mundo?
Las empresas que desarrollan sistemas de IA generativa tienden a proteger ferozmente su ‘fórmula secreta’. Lo que se sabe es que los modelos de mundo interactivos se entrenan, en parte, utilizando miles de horas de videos del mundo real, así como con simulaciones precisas de entornos físicos que están programados para respetar las leyes de la física.
¿Qué capacidades de IA podrían desbloquear los modelos de mundo?
“La versión más emocionante de un modelo del mundo es aquella en la que puedes realizar acciones”, dice Jeff Clune, un científico de la computación de la Universidad de Columbia Británica en Vancouver, Canadá. Un entorno de este tipo podría ser un escenario seguro para entrenar sistemas de IA que controlan robots, y podría ser mucho más rápido que permitir que los robots aprendan interactuando con objetos físicos, afirma el científico de la computación Anastasis Germanidis, cofundador de Runway, una empresa emergente de Nueva York que lanzó un modelo de mundo llamado GWM-1 en diciembre de 2025.
¿Cómo beneficiarán los modelos de mundo a los investigadores?
Un modelo de mundo como Genie 3 puede ofrecer una enorme cantidad de formas de entrenar el software que puede impulsar un robot o un auto autónomo, dice Clune, quien contribuyó al desarrollo de Genie durante un contrato con Google DeepMind.
En la investigación, herramientas como los laboratorios de química autónomos —químicos robóticos— podrían acumular rápidamente miles de horas de entrenamiento en un modelo del mundo antes de ser desplegados en un laboratorio real.
¿En qué se diferencia el enfoque de AMI Labs del de otras empresas?
La empresa de LeCun está desarrollando modelos del mundo basados en su Arquitectura Predictiva de Incrustación Conjunta (JEPA), la cual está diseñada para tener una representación interna del mundo de ‘nivel superior’. Mientras que la IA generativa típica está diseñada para predecir cómo se ven los fotogramas píxel por píxel, JEPA produciría en cambio predicciones más conceptuales, como la forma en que el movimiento de un objeto sigue las leyes de la física, lo que permite describir de manera concisa el movimiento de un objeto con unas pocas variables, como su posición y orientación en el espacio.
LeCun dijo en una charla en la Universidad de Harvard en Cambridge, Massachusetts, a finales de 2025, que JEPA podría utilizarse para predecir con exactitud los movimientos de los planetas basándose en menos variables que las que utilizan los modelos píxel a píxel.
Para predecir la posición de Júpiter en 100 años, “no necesitás saber todos los detalles… solo necesitás seis números”, dijo LeCun.
Una posible ventaja del enfoque de más alto nivel de AMI Labs es que podría requerir menos recursos computacionales para funcionar que la típica IA generativa, que consume mucha energía. “Me entusiasma que Yann lo esté llevando adelante, porque es una idea hermosa”, agrega Clune.
Sin embargo, otros dicen que las mismas mejoras en los modelos del mundo podrían lograrse principalmente escalando las técnicas actuales de IA generativa con más entrenamiento, potencia de cómputo o ambos. “Un tema muy constante en la historia de la IA es que el enfoque simple tiende a escalar más fácilmente,” dice Germanidis.
Davide Castelvecchi


