Promtior usó el Mundial 2026 para medir qué tan lejos llegó la IA: cuatro de cinco modelos coincidieron en un mismo campeón

La excusa fue el Mundial de Fútbol. El experimento, en realidad, era otra cosa.

Promtior, empresa de inteligencia artificial fundada en Montevideo que creció de US$ 70.000 a US$ 4 millones en tres años, encargó a su laboratorio interno una tarea que resultó ser una prueba de fuego para los modelos más avanzados del mercado. El objetivo fue simular el Mundial 2026 completo, con sus 48 selecciones, 12 grupos, clasificaciones, eliminatorias y premios individuales, siguiendo las reglas oficiales del torneo al pie de la letra.

Los cinco modelos que entraron a la cancha fueron ChatGPT 4.5, Opus 4.7 de Anthropic, Kimi K2.6, Grok 4 y Gemini 2.5. Todos recibieron exactamente la misma especificación. Y todos, en mayor o menor medida, le erraron al principio.

Planificar, no predecir

Lo que buscaba el laboratorio de Promtior era medir la capacidad de planificación de cada modelo ante una tarea compleja con reglas encadenadas, lo que en el campo de la inteligencia artificial se llama un one-shot prompt, una sola instrucción extensa que el modelo debe ejecutar de principio a fin sin intervención humana.

"Lo que teníamos como premisa era evaluar la capacidad de planificación de cada uno de estos modelos, particularmente la capacidad de planificar lo que es un campeonato", explicó Emiliano Chinelli, CEO de Promtior, a Forbes Uruguay. "Estos modelos tienen un valor más descriptivo y argumentativo que predictivo", indicó.

La dificultad del ejercicio estaba en que simular un Mundial requiere bastante más que tirar resultados. Hay que calcular tablas de posiciones, ordenar a los clasificados de cada grupo, armar el ranking de los mejores terceros según las reglas de la FIFA y seguir el cuadro eliminatorio sin contradicciones.

Mira también

La nueva favorita de las Big Pharma: qué vieron Pfizer y Eli Lilly para apostar por esta startup de US$ 1.300 millones

Escalar en humanidad antes que en tecnología: la apuesta de Javier Artigas, el anfitrión de Airbnb que hospedó a Hernán Casciari

Los errores

En las primeras pruebas, los modelos cometieron exactamente los errores que el equipo de Promtior temía. Tablas de posiciones que no coincidían con los resultados partido a partido, puntos mal calculados, terceros clasificados elegidos de manera arbitraria sin respetar los criterios de desempate, cruces de eliminación directa armados por intuición más que por las reglas del torneo.

Mira también

La profe que pasó de entrenar árbitros de la FIFA a crear una startup que ya llegó a Inglaterra y Arabia Saudita

El prompt se fue ajustando varias veces, se agregaron fórmulas explícitas, controles de verificación y reglas que obligaban a cada modelo a confirmar cada paso antes de avanzar al siguiente. Recién entonces los resultados empezaron a ser más consistentes.

Lo que eso reveló a la empresa sobre el estado actual de la IA es que los modelos generativos priorizan la verosimilitud sobre la exactitud. Un texto que suena correcto tiene más peso en el entrenamiento que uno que es correcto matemáticamente, lo que queire decir que para tareas largas con muchas reglas encadenadas, la instrucción precisa y la validación de los humanos todavía son indispensables.

Cuatro de los cinco modelos dieron a Argentina como campeón del mundo. El quinto, Kimi K2.6 (el modelo de origen chino), eligió a Brasil. Para Chinelli, ese detalle puede formar parte de los sesgos que cada modelo arrastra según sus datos de entrenamiento y el origen de sus creadores.

En cuanto a los uruguayos, el trato fue dispar según el modelo. Según el ejecutivo, Google fue el que mejor parado dejó a la selección celeste. Para OpenAI, en cambio, Uruguay resultó ser “una decepción”.

Las promesas que tardaron tres años en cumplirse

La empresa, que trabaja con grandes corporaciones en la implementación de soluciones de inteligencia artificial, lleva años siguiendo la evolución de los modelos con más escepticismo que entusiasmo. Desde el boom de fines de 2022, muchas de las promesas de productividad que rodearon al lanzamiento de los primeros grandes modelos tardaron en materializarse.

"Nunca fuimos pro al hype de la IA, siempre fuimos bastante críticos", dijo Chinelli. "Pero ahora, con los modelos más de frontera de los últimos meses, vemos que esas promesas se empiezan a cumplir. Ya llegan a un nivel de razonamiento que hoy sí genera saltos reales en la productividad", consideró.

El modelo que más los convenció en esta prueba fue Opus 4.7, de Anthropic. Tanto, que la empresa tomó decisiones estratégicas a partir de sus resultados, migrando su oferta hacia lo que llaman Agent as a Service, un modelo centrado en la construcción de agentes autónomos capaces de ejecutar flujos de trabajo completos.

La comparación que hace Chinelli para el usuario común es que hoy los modelos más avanzados cuestan lo mismo que una suscripción de streaming, trabajan las 24 horas y tienen una capacidad de razonamiento, análisis de datos y generación de contenido que hace un año era impensable.

“Antes podías pasar desapercibido si no los usabas. Hoy la diferencia entre quién los adopta y quién no es abismal. Y ya no hablo de eficiencia, sino de la calidad de lo que se entrega”, cerró.

Promtior usó el Mundial 2026 para medir qué tan lejos llegó la IA: cuatro de cinco modelos coincidieron en un mismo campeón

La empresa uruguaya puso a competir cinco modelos de IA en una simulación completa del torneo. Lo que encontraron les abrió los ojos a algo que va más allá del fútbol.

Planificar, no predecir

La nueva favorita de las Big Pharma: qué vieron Pfizer y Eli Lilly para apostar por esta startup de US$ 1.300 millones

Escalar en humanidad antes que en tecnología: la apuesta de Javier Artigas, el anfitrión de Airbnb que hospedó a Hernán Casciari

Los errores

La profe que pasó de entrenar árbitros de la FIFA a crear una startup que ya llegó a Inglaterra y Arabia Saudita

Las promesas que tardaron tres años en cumplirse

Tags

Tesla abrió sus puertas en Uruguay: primer día de ventas, precios, supercargadores y el ingeniero uruguayo de 28 años que lidera la operación

Se vendió Juana la Loca: los dueños de La Trigueña hicieron su primera apuesta por fuera de la tradicional empresa familiar

Grupo Chileno invertirá US$ 6 millones en una planta de compostaje industrial en Paysandú; la primera fuera de fronteras

De idea entre amigos a negocio global: la Calculadora Celeste suma cientos de miles de usuarios y busca expandirse tras el Mundial

Chau Tinder: jóvenes de Stanford y Berkeley crearon una nueva forma de conseguir pareja y ya recaudaron millones

Loyalics, la startup uruguaya que ayuda a pymes de la región a recuperar clientes con programas de fidelidad inteligentes

El otro negocio de Messi tras el Mundial: El Club de la Milanesa invierte US$ 6 millones en su expansión y desembarca en Europa

Más noticias

Fintech, bancos y tecnología: cómo se redefine la experiencia

Loyalics, la startup uruguaya que ayuda a pymes de la región a recuperar clientes con programas de fidelidad inteligentes

Una IA de OpenAI escapó de una prueba y atacó a otra empresa: la explicación de Sam Altman

De idea entre amigos a negocio global: la Calculadora Celeste suma cientos de miles de usuarios y busca expandirse tras el Mundial

Streaming vs. TV: mientras el Mundial busca un campeón, la nueva generación de creadores ya se consagró

El spin-off del Football Manager podría ayudar a los clubes a encontrar al próximo Messi

Starbucks desafía a los gigantes del software: usará IA para reemplazar sistemas de Microsoft e IBM

Una membresía. Posibilidades ilimitadas.

Promtior usó el Mundial 2026 para medir qué tan lejos llegó la IA: cuatro de cinco modelos coincidieron en un mismo campeón

La empresa uruguaya puso a competir cinco modelos de IA en una simulación completa del torneo. Lo que encontraron les abrió los ojos a algo que va más allá del fútbol.

Planificar, no predecir

Los errores

Las promesas que tardaron tres años en cumplirse

Tags

Más noticias

Iniciá sesión en Forbes

Crear una cuenta

Iniciar sesión