La excusa fue el Mundial de Fútbol. El experimento, en realidad, era otra cosa.
Promtior, empresa de inteligencia artificial fundada en Montevideo que creció de US$ 70.000 a US$ 4 millones en tres años, encargó a su laboratorio interno una tarea que resultó ser una prueba de fuego para los modelos más avanzados del mercado. El objetivo fue simular el Mundial 2026 completo, con sus 48 selecciones, 12 grupos, clasificaciones, eliminatorias y premios individuales, siguiendo las reglas oficiales del torneo al pie de la letra.
Los cinco modelos que entraron a la cancha fueron ChatGPT 4.5, Opus 4.7 de Anthropic, Kimi K2.6, Grok 4 y Gemini 2.5. Todos recibieron exactamente la misma especificación. Y todos, en mayor o menor medida, le erraron al principio.
Planificar, no predecir
Lo que buscaba el laboratorio de Promtior era medir la capacidad de planificación de cada modelo ante una tarea compleja con reglas encadenadas, lo que en el campo de la inteligencia artificial se llama un one-shot prompt, una sola instrucción extensa que el modelo debe ejecutar de principio a fin sin intervención humana.
"Lo que teníamos como premisa era evaluar la capacidad de planificación de cada uno de estos modelos, particularmente la capacidad de planificar lo que es un campeonato", explicó Emiliano Chinelli, CEO de Promtior, a Forbes Uruguay. "Estos modelos tienen un valor más descriptivo y argumentativo que predictivo", indicó.
La dificultad del ejercicio estaba en que simular un Mundial requiere bastante más que tirar resultados. Hay que calcular tablas de posiciones, ordenar a los clasificados de cada grupo, armar el ranking de los mejores terceros según las reglas de la FIFA y seguir el cuadro eliminatorio sin contradicciones.
Los errores
En las primeras pruebas, los modelos cometieron exactamente los errores que el equipo de Promtior temía. Tablas de posiciones que no coincidían con los resultados partido a partido, puntos mal calculados, terceros clasificados elegidos de manera arbitraria sin respetar los criterios de desempate, cruces de eliminación directa armados por intuición más que por las reglas del torneo.
El prompt se fue ajustando varias veces, se agregaron fórmulas explícitas, controles de verificación y reglas que obligaban a cada modelo a confirmar cada paso antes de avanzar al siguiente. Recién entonces los resultados empezaron a ser más consistentes.
Lo que eso reveló a la empresa sobre el estado actual de la IA es que los modelos generativos priorizan la verosimilitud sobre la exactitud. Un texto que suena correcto tiene más peso en el entrenamiento que uno que es correcto matemáticamente, lo que queire decir que para tareas largas con muchas reglas encadenadas, la instrucción precisa y la validación de los humanos todavía son indispensables.
Cuatro de los cinco modelos dieron a Argentina como campeón del mundo. El quinto, Kimi K2.6 (el modelo de origen chino), eligió a Brasil. Para Chinelli, ese detalle puede formar parte de los sesgos que cada modelo arrastra según sus datos de entrenamiento y el origen de sus creadores.
En cuanto a los uruguayos, el trato fue dispar según el modelo. Según el ejecutivo, Google fue el que mejor parado dejó a la selección celeste. Para OpenAI, en cambio, Uruguay resultó ser “una decepción”.
Las promesas que tardaron tres años en cumplirse
La empresa, que trabaja con grandes corporaciones en la implementación de soluciones de inteligencia artificial, lleva años siguiendo la evolución de los modelos con más escepticismo que entusiasmo. Desde el boom de fines de 2022, muchas de las promesas de productividad que rodearon al lanzamiento de los primeros grandes modelos tardaron en materializarse.
"Nunca fuimos pro al hype de la IA, siempre fuimos bastante críticos", dijo Chinelli. "Pero ahora, con los modelos más de frontera de los últimos meses, vemos que esas promesas se empiezan a cumplir. Ya llegan a un nivel de razonamiento que hoy sí genera saltos reales en la productividad", consideró.
El modelo que más los convenció en esta prueba fue Opus 4.7, de Anthropic. Tanto, que la empresa tomó decisiones estratégicas a partir de sus resultados, migrando su oferta hacia lo que llaman Agent as a Service, un modelo centrado en la construcción de agentes autónomos capaces de ejecutar flujos de trabajo completos.
La comparación que hace Chinelli para el usuario común es que hoy los modelos más avanzados cuestan lo mismo que una suscripción de streaming, trabajan las 24 horas y tienen una capacidad de razonamiento, análisis de datos y generación de contenido que hace un año era impensable.
“Antes podías pasar desapercibido si no los usabas. Hoy la diferencia entre quién los adopta y quién no es abismal. Y ya no hablo de eficiencia, sino de la calidad de lo que se entrega”, cerró.


