En la columna de hoy analizo un tema vinculado a la inteligencia artificial que tiene un impacto inflacionario llamativo en los costos operativos de la IA generativa y los grandes modelos de lenguaje (LLM). Es un aspecto que, en general, permanece fuera del radar para quienes no forman parte de la comunidad técnica.
Voy a explicar las bases técnicas y las principales consideraciones. El eje está puesto en un método discutido que gira en torno a los llamados "tokens de pensamiento" (TT).
La tokenización es crucial
El punto central pasa por cómo funciona la tokenización en la IA generativa y en los grandes modelos de lenguaje actuales. Cuando se introduce un texto en la IA, ese contenido se transforma en una serie de números. Esos números son los que se procesan a lo largo de todo el recorrido interno del sistema. Una vez que la IA genera una respuesta, lo hace en formato numérico, y ese resultado debe volver a convertirse en texto para que puedas leerlo. En ese momento, el sistema traduce los números y presenta la respuesta final.
A todo ese procedimiento se lo conoce como tokenización. El texto que ingresás se codifica en una secuencia de números que se llaman tokens. Esos tokens son los que la IA procesa para generar las respuestas a tus preguntas. La respuesta, al principio, también está en formato numérico y tiene que volver a transformarse en texto para que puedas leerla.
Por suerte, el usuario común no necesita saber nada sobre el proceso de tokenización. Es un asunto que suele quedar reservado para los desarrolladores de inteligencia artificial, con poco atractivo para el público general. Muchas veces se usan distintos atajos numéricos para tratar de acelerar al máximo ese proceso y evitar que la IA se frene durante las etapas de codificación y decodificación.
Cuando los humanos necesitan tiempo para pensar
Quiero hacer un paréntesis para hablar de algo distinto: la forma en que pensamos los seres humanos. Más adelante voy a retomar la cuestión de la tokenización en la IA y voy a unir estos dos temas, que a simple vista parecen no tener relación, en una explicación que tiene sentido. Tené paciencia, vale la pena seguir el hilo.
Cuando una persona responde a una pregunta o cuenta una historia, muchas veces hace pausas o baja el ritmo al hablar. Probablemente lo hace para ganar unos segundos y pensar mejor en lo que va a decir. El uso de muletillas como "eh" o "¿sabés?" cumple una función parecida. En el fondo, el cerebro busca frenar un poco el procesamiento del habla en tiempo real para tomarse un respiro y poder reflexionar.
Se podría comparar con lo que pasa cuando mirás un video online y, de pronto, la imagen se detiene unos segundos porque la red necesita ajustarse al ritmo de transmisión. Los servidores se sobrecargan al intentar enviar el video demasiado rápido. Tal vez la red soporte una velocidad alta, pero el servidor no tiene la capacidad suficiente para emitirlo al ritmo deseado.

Seguro alguna vez tuviste que hacer algo parecido: frenar o cambiar el ritmo al hablar mientras contabas una historia complicada o intentabas responder una pregunta difícil. Lo que hacías, en realidad, era ganar tiempo para que tu mente pudiera trabajar tranquila. No es algo que pase todo el tiempo. Suele aparecer cuando pensás con intensidad, como al hacer cálculos mentales complejos o al tratar de ordenar tus ideas con una lógica clara.
Esa pausa no aparece cuando recitás una historia que ya memorizaste o cuando respondés preguntas simples. Suele surgir cuando necesitás que tu mente esté completamente concentrada. Ahí es cuando se llega al límite, y eso hace que, de manera consciente o no, bajes el ritmo al hablar para manejar mejor la sobrecarga mental.
Analogía con la IA generativa y los LLM
Sin caer en la tentación de humanizar a la inteligencia artificial, existe una idea parecida a la de "ganar tiempo" que se aplica en el desarrollo de IA generativa y en los modelos de aprendizaje automático. Esta comparación se parece más al ejemplo del video online: hablamos de servidores y redes que deben procesar grandes volúmenes de información. En el caso de la IA, la clave está en la tokenización.
Muchas veces, los tokens que procesa un modelo se manejan uno por uno. Es una simplificación, claro, porque los modelos más avanzados funcionan con otros mecanismos, pero sirve para entender el concepto general. Imaginá que los tokens se mueven como si estuvieran sobre una cinta transportadora, pasando por una línea de procesamiento.
A medida que cada token llega al núcleo del sistema para ser procesado, la IA le asigna un tiempo fijo. Cada uno recibe su turno y, una vez que ese tiempo se cumple, la cinta sigue avanzando. Así, todos los tokens que llegan al punto de procesamiento reciben el mismo tiempo.
Ahora bien, ¿qué pasa si esos tokens pertenecen a una pregunta realmente compleja? Ese tiempo fijo puede no alcanzar para que la IA explore un conjunto más amplio de opciones. En cierto modo, ese límite actúa como una traba que impide que el sistema procese la información con la profundidad necesaria para dar una respuesta más completa.
Intentar resolver el dilema
¿Qué te parece más importante: que la IA responda rápido o que dé mejores respuestas? Supongamos que los usuarios están dispuestos a tolerar cierta demora si eso les garantiza respuestas más útiles, sobre todo cuando se trata de consultas complejas. Una forma de darle a la IA más tiempo de procesamiento sería introducir un tipo especial de token que genere una pausa leve en la generación de la respuesta y así permita un refuerzo del cálculo interno.
La idea sería esta: sumar un token especial a la línea de tokens que se desplazan por la cinta transportadora. Ese token no tiene otra función relevante ni requiere ser procesado como los demás. Su único propósito es servir como un "eh" o un "ya sé", es decir, crear una pausa entre los tokens que están en curso.
El token especial entra en juego
Investigadores probaron esta idea y observaron que esos tokens especiales, efectivamente, le daban a la IA más tiempo de procesamiento para manejar los tokens reales. Así, se podría incorporar este tipo de token dentro del flujo general para que, en determinados momentos, el sistema gane unos instantes extra de cálculo.
Voy a ilustrarlo con un ejemplo breve. Supongamos que la IA está procesando la frase "El perro ladró al gato". Imaginemos también que cada palabra se transforma en un token, y que cada uno recibe el mismo tiempo fijo para ser procesado dentro del sistema.

Ahora bien, pensemos qué pasaría si quisiéramos darle un poco más de tiempo para procesar esa misma frase. Podríamos insertar un token especial de esta forma: "El perro ladró al gato". Lo que esto implica es que, después de "El perro", aparece un token que no hace otra cosa más que permitirle a la IA seguir procesando esa parte de la frase. Lo mismo sucede tras la palabra "ladró". Ese token no consume tiempo adicional por sí mismo, sino que genera una especie de pausa que le da aire al sistema para seguir trabajando sobre lo que ya venía calculando.
Pero, ¿cuántos de estos tokens especiales habría que incluir en un mensaje que ingresa un usuario? Depende. Si se trata de una pregunta sencilla, lo más lógico sería no incorporar ninguno y dejar que la IA procese el mensaje como siempre. Pero si el mensaje plantea una consulta compleja, podría ser útil sumar algunos tokens especiales al conjunto. Incluso, en ciertos casos, se podría llegar a insertar un token especial después de cada palabra del mensaje, algo como: "El perro ladró al gato ". Eso duplicaría, en la práctica, el tiempo de procesamiento disponible. No hay garantía de que eso dé como resultado una mejor respuesta, pero ante una consulta difícil, podría mejorarla.
Experimentar con esta idea
Algunos investigadores decidieron poner a prueba esta propuesta e incorporaron tokens especiales en el procesamiento interno de la IA generativa y los modelos de lenguaje. Ahora te voy a mostrar qué resultados obtuvieron en los primeros ensayos.
Pero antes, vale la pena mencionar una pequeña polémica que surgió. Podrían haber llamado a estos tokens algo como "token de pausa" o "token de descanso", pero optaron por un nombre que generó ruido: los llamaron "tokens de pensamiento". No a todos les cayó bien esa elección. ¿Por qué? Porque puede dar la impresión de que esos tokens piensan por sí mismos o que tienen alguna cualidad especial vinculada al razonamiento. En realidad, su única función es permitirle a la IA dedicar más tiempo a procesar los tokens que sí contienen información relevante.
Además, existen otros tipos de tokens especiales que, por sí mismos, están diseñados para aportar un valor adicional de manera directa. A esos, uno podría sentirse tentado de llamarlos también "tokens de pensamiento". Para evitar esa confusión, lo más habitual es denominarlos "tokens de razonamiento".
El problema con los nombres se complica aún más cuando un desarrollador de IA, sin demasiada precisión, llama "tokens de pensamiento" a los de razonamiento o viceversa. Un desorden.
Un paper clásico
El trabajo de investigación que marcó un antes y un después en este tema fue el titulado "Thinking Tokens for Language Modeling", de David Herel y Tomas Mikolov, publicado en arXiv el 14 de mayo de 2024. Aunque ya había otros ensayos que jugaban con la idea de tokens especiales, este fue el que logró captar mayor atención.
Entre los puntos destacados del paper, se lee:
- "Nuestra propuesta consiste en introducir 'tokens de pensamiento' especiales (< T >) después de cada palabra en una oración siempre que se enfrente un problema complejo".
- "La idea central es que cada 'token de pensamiento' le otorga más tiempo al modelo antes de que se espere una respuesta, lo que permite realizar cálculos adicionales para mejorar la respuesta ante un problema complejo".
- "Este concepto tiene un gran potencial en las redes neuronales recurrentes por su propia arquitectura, ya que permite que la RNN realice varias operaciones en memoria en un solo paso. Eso significa que se pueden ejecutar cálculos adicionales varias veces en la capa oculta".
- "Los experimentos dieron como resultado numerosos ejemplos en los que el uso de 'tokens de pensamiento' mejora el criterio del modelo. Los resultados preliminares muestran que, en oraciones que requieren un razonamiento no trivial, el uso de estos tokens genera una mejora significativa en la perplexity respecto del modelo estándar".
Lo interesante de esta propuesta es que no hace falta modificar por completo el corazón del sistema de IA para implementarla. Basta con hacer un ajuste menor: permitir la inclusión de un token especial que, al aparecer, no se procesa como un token tradicional, sino que le da al sistema más tiempo para trabajar sobre los tokens reales que tiene cerca.
Demasiado de algo bueno
Como este truco inteligente ayuda a obtener mejores respuestas sin necesidad de reestructurar por completo el sistema, muchos desarrolladores de IA se entusiasmaron con la idea e intentaron aplicarla de inmediato. Imaginemos que se incorporan estos tokens especiales en todo tipo de mensajes que los usuarios ingresan al sistema. El usuario no lo nota. Todo ocurre internamente.
Pero hay un detalle: eso puede generar demoras. Las respuestas no aparecen tan rápido como antes. Tal vez el usuario lo note, tal vez no. Además, hay otro factor importante: el costo. Al hacer más cálculos, la IA consume más recursos. Si el usuario paga por la cantidad de tokens procesados o por el tiempo de uso del sistema, ese procesamiento adicional va a impactar en la factura.

Ahí es cuando entra en juego el problema de la escala.
Un usuario individual quizás no note un aumento en su facturación ni perciba que las respuestas están tardando un poco más. Pero, ¿qué pasa cuando hablamos de miles o incluso millones de usuarios? Para tener una referencia, OpenAI asegura que cuenta con 800 millones de usuarios activos por semana. Una cifra enorme.
El punto es que, a gran escala, el consumo de procesamiento se dispara. Esto ya está ocurriendo en todo el mundo. Los servidores, en centros de datos gigantescos, trabajan sin pausa, también por culpa de los tokens especiales que se insertan. Eso hace que aumente el consumo de energía eléctrica, y con él también crecen los costos del sistema de refrigeración, como por ejemplo los que usan agua para enfriar los equipos.
Algunos ya empiezan a hablar de un impacto inflacionario en el uso de la IA.
Poner en duda los tokens de pensamiento
Algunos especialistas sostienen que los desarrolladores de IA deberían ser más cuidadosos con el uso de los llamados tokens de pensamiento. Hay quienes los aplican con mucha cautela, mientras que otros los usan sin demasiadas restricciones. El punto clave está en el equilibrio: hay un costo-beneficio en emplearlos. Algunos insisten en que conviene usarlos con moderación. Otros responden que son una necesidad lógica para asegurarse de que la IA tenga tiempo suficiente para procesar lo que le piden los usuarios. Según esa mirada, lo importante es aplicarlos con inteligencia y no dejarse llevar por las advertencias más alarmistas.
También hay investigadores que han cuestionado directamente el valor de los tokens de pensamiento. Sostienen que existen otras alternativas más eficaces. Uno de esos trabajos afirma que el método conocido como chain-of-thought (o CoT, que explico en detalle en este otro artículo) ofrece mejores resultados con menos recursos. Así lo señala el estudio "Rethinking Thinking Tokens: Understanding Why They Underperform in Practice", firmado por Sreeram Vennam, David Valente, David Herel y Ponnurangam Kumaraguru, publicado en arXiv el 18 de noviembre de 2024, con estos puntos destacados:
- "Los tokens de pensamiento (TT) se propusieron como un método no supervisado para facilitar el razonamiento en los modelos de lenguaje".
- "Sin embargo, a pesar de su atractivo teórico, nuestros resultados muestran que los TT apenas mejoran el rendimiento y tienen un desempeño sistemáticamente inferior en comparación con el razonamiento por chain-of-thought (CoT) en múltiples pruebas".
- "Nuestra hipótesis es que este bajo rendimiento se debe a que los TT se apoyan en una única incrustación (embedding), lo que genera señales de aprendizaje inconsistentes y provoca gradientes ruidosos".
- "Cuando se usa una sola incrustación para los TT, durante el proceso de backpropagation el modelo recibe señales de aprendizaje contradictorias, lo que produce actualizaciones de gradiente con ruido. Ese ruido interfiere en el aprendizaje, especialmente en tareas que requieren pasos intermedios estructurados, como el razonamiento aritmético o las tareas de sentido común que implican múltiples saltos".
El tema sigue abierto y genera discusiones intensas entre desarrolladores de inteligencia artificial.
Tokens ocultos e IA inflacionaria
Probablemente te sorprenda saber que existen tokens ocultos que pueden estar impulsando un mayor consumo de capacidad de cómputo, y que estos tokens —invisibles para el usuario— ya son considerados un factor inflacionario dentro de la IA actual.
Como decía Arthur Conan Doyle: "Hace tiempo que sostengo que las cosas pequeñas son infinitamente las más importantes". Esa frase también aplica, sin dudas, a lo que ocurre dentro de los sistemas modernos de inteligencia artificial.
*Con información de Forbes US.