Mientras OpenAI, Google y otros gigantes tecnológicos compiten por desarrollar modelos cada vez más grandes y anunciar nuevos récords de rendimiento cada mes, las empresas enfrentan un desafío más silencioso y, al mismo tiempo, mucho más práctico: la inferencia.
Ejecutar modelos de IA ya entrenados para analizar datos nuevos y generar respuestas puede parecer una tarea sencilla en teoría. Sin embargo, en una escala masiva, es justamente ahí donde muchas compañías tienen problemas. Las GPU, que originalmente se diseñaron para el renderizado de gráficos, son potentes en términos de cálculo, pero no están preparadas para soportar millones de consultas en tiempo real sin dificultades. Eso se traduce en costos elevados, demoras en las respuestas y un consumo energético muy alto.
IBM, que históricamente se presentó como una referencia en informática para empresas, busca cubrir ese vacío. En lugar de apostar por modelos más grandes, la compañía se posiciona como una facilitadora de la inteligencia artificial, una capa intermedia que convierte la inteligencia en acciones concretas. Su estrategia más reciente apunta a un componente invisible, pero clave para el funcionamiento actual de la IA: la infraestructura de inferencia.
A través de nuevas alianzas con Anthropic y Groq —la startup californiana reconocida por sus Unidades de Procesamiento del Lenguaje (LPU)— IBM busca replantear cómo funciona la inteligencia artificial en entornos productivos dentro de las empresas.
"Los datos están por todas partes: múltiples nubes, edge computing, entornos locales, y la IA empresarial debe poder funcionar en entornos híbridos. Contamos con una estrategia de modelo por capas que equilibra la innovación de IBM con alianzas estratégicas para acelerar los resultados", me comentó Rob Thomas, vicepresidente sénior y director comercial de IBM. "Aprovechamos diversos modelos: modelos de lenguaje pequeños como Granite, modelos de lenguaje grandes de nuestros socios como Mistral y Meta, y modelos de vanguardia gracias a nuestra alianza con Anthropic, y utilizamos el modelo más adecuado para cada caso de uso".

Con el hardware de inferencia de Groq ya integrado en watsonx Orchestrate, IBM asegura que las empresas pueden ejecutar sistemas de IA agentica hasta cinco veces más rápido y con un costo menor en comparación con las configuraciones tradicionales basadas en GPU.
"La IA aún se encuentra estancada en la era de la conexión por módem: los modelos pueden ofrecer respuestas precisas, pero para brindar respuestas de alta calidad, aptas para la investigación, puede ser necesario esperar hasta 10 minutos mientras un LLM o un agente procesa la información", afirmó Jonathan Ross, CEO y fundador de Groq. "Un procesamiento más rápido también incrementa el uso de recursos y, por lo tanto, los costos de computación, por lo que la velocidad debe ir acompañada de eficiencia en costos".
Ross explicó que las GPU tradicionales se destacan en cargas de trabajo paralelas y por lotes, como el entrenamiento de modelos. Pero cuando se trata de razonamientos de baja latencia y en múltiples pasos —el tipo de ejecución dinámica que necesita la IA basada en agentes— presentan limitaciones. Las LPU, en cambio, funcionan con una arquitectura de línea de ensamblaje controlada por software, que mueve los datos en un flujo determinista. Así, logran evitar los cuellos de botella típicos de las GPU y permiten un rendimiento de IA en tiempo real.
"La IA agentica mejora los resultados de los LLM al descomponer una tarea en una serie de pasos explícitos y ejecutarlos de manera secuencial. Este enfoque de 'pensar en pasos' produce mejores resultados, aunque también multiplica la capacidad de cómputo necesaria, lo que aumenta tanto la latencia como el costo", me explicó. "Las GPU son la herramienta adecuada para el entrenamiento, es decir, la creación de modelos de IA. Las LPU son la herramienta adecuada para la inferencia, o la ejecución de modelos de IA".
Dentro de la pila tecnológica de habilitación de IA de IBM
A medida que las empresas dejan atrás la etapa de pruebas con inteligencia artificial y avanzan hacia su uso en producción, IBM busca integrar tres capas clave de la pila tecnológica moderna: inteligencia, inferencia y gobernanza, todo a través de su plataforma watsonx.
En la capa de inteligencia, la alianza con Anthropic incorpora los modelos Claude, que se destacan por ofrecer razonamientos transparentes. Esto representa una ventaja importante para sectores regulados que exigen sistemas explicables y no estructuras opacas difíciles de auditar.
En un nivel más técnico, las LPU deterministas de Groq reemplazan a las GPU, conocidas por su alto consumo energético, y permiten una inferencia de baja latencia a gran escala, ajustada a las cargas de trabajo reales del ámbito corporativo. El sistema se apoya en la plataforma de gobernanza de IBM, basada en Red Hat OpenShift, que garantiza que cada interacción con IA sea auditable, segura y cumpla con las normativas en entornos híbridos y locales.

"Por ahora, la estrategia de IBM parece estar funcionando", me comentó Dario Maisto, analista sénior de la nube en Forrester. "Si fomentará un crecimiento sostenible a largo plazo es otra cuestión. Como aspecto positivo, esta forma de trabajar le brinda a IBM la flexibilidad necesaria para aprovechar de forma más oportunista las nuevas soluciones y alianzas de IA".
IBM sostiene que su estrategia ya muestra resultados positivos entre clientes con altas demandas de inferencia. Un ejemplo es una importante aseguradora de salud, que utiliza watsonx Orchestrate para procesar miles de consultas de pacientes y proveedores al mismo tiempo. Al ejecutar agentes de IA sobre las LPU de Groq, el sistema ofrece respuestas en tiempo real, con una latencia prácticamente nula. Esto no solo mejora la experiencia del paciente, sino que también acelera la aprobación de reclamaciones.
"Nuestro papel es proporcionar la pila tecnológica completa que las empresas necesitan para implementar la IA. Nuestro portafolio watsonx acelera el retorno de la inversión en los flujos de trabajo principales. Nuestros modelos Granite siguen siendo fundamentales para las tareas específicas de la empresa, donde el control y la personalización son cruciales.
Y los modelos de vanguardia de socios como Anthropic amplían los límites de lo posible", añadió Thomas. "Dentro de tres años, creo que IBM será la capa habilitadora que permita que la IA funcione en todo el entorno tecnológico empresarial".
La estrategia modular de IBM frente al dominio de los hiperescaladores
La próxima competencia por el liderazgo en inteligencia artificial podría depender de quién logre implementarla de manera más inteligente, e IBM eligió un camino distinto. Mientras Microsoft y Google construyeron ecosistemas fuertemente integrados en torno a sus propios modelos y nubes, la estrategia de IBM es modular e híbrida desde el diseño. Así evita quedar atada a un ecosistema específico.
Microsoft apostó con fuerza por los modelos avanzados de OpenAI, que integró en sus productos clave: Microsoft 365, Azure, GitHub y Windows, a través de sus copilotos basados en GPT. Según trascendió, la empresa ahora controla aproximadamente el 27 % de OpenAI, que alcanzó una valuación de US$ 135.000 millones tras una reciente recapitalización. Esta participación le permitió activar un círculo virtuoso que fortalece sus modelos, asegura la fidelización de empresas y genera una tasa de ingresos anualizados en la nube de US$ 123.000 millones a partir del tercer trimestre de 2025.

Google, en su apuesta por una integración vertical, combina sus modelos propietarios Gemini con los de código abierto Gemma para potenciar Vertex AI y otras plataformas como la Búsqueda y Android. Con sus propias TPU y el control sobre los datos, la compañía mantiene el dominio completo de su pila de IA, lo que le permitió alcanzar ingresos por servicios en la nube por unos US$ 61.000 millones.
IBM, en cambio, pone el foco en la orquestación, no en la propiedad. Su plataforma watsonx y sus modelos de lenguaje pequeños (SLM) están diseñados para funcionar en entornos híbridos y locales. Además, Red Hat OpenShift permite desplegar estas soluciones tanto en la nube como en sistemas seguros y aislados. Con una participación en el mercado de la nube cercana al 2 %, IBM apuesta con fuerza por la inferencia y la confiabilidad de última generación.
"Todos los hiperescaladores quieren controlar el acceso a la nube, y las empresas buscan libertad en todas las nubes, regiones soberanas y ubicaciones perimetrales", afirmó Haseeb Budhani, CEO y cofundador de Rafay. "El ganador será la plataforma que logre una experiencia uniforme en cualquier entorno: nube pública, local o neocloud. Es un listón muy alto. Si IBM lo supera, excelente. De lo contrario, la multicloud seguirá siendo solo una opción, no un sistema".
Budhani agregó que, en materia de infraestructura para IA, la economía será más determinante que el hardware. "Las GPU no se venden solas; la experiencia sí", afirmó. Cuando la orquestación mejora la utilización y permite un gasto predecible —sobre todo en nubes soberanas y regionales—, las decisiones de compra cambian.
Tras años de ser vista como una empresa cautelosa en la carrera por la inteligencia artificial, IBM busca ahora posicionarse como un actor clave, dominando la infraestructura que hace que la IA funcione en la práctica.
"Experimentar es fácil. Producir es difícil. Las empresas se enfrentan a tres desafíos clave al intentar obtener un retorno de la inversión en IA: velocidad, coste y fiabilidad. Ahí es donde la completa gama de tecnologías de IBM, incluyendo nuestra nueva alianza con Groq, marca la diferencia", afirmó Thomas. "Ofrecemos a nuestros clientes la posibilidad de elegir".
Con información de Forbes US.