Las películas dobladas en Polonia son un suplicio. Un único lector lee todos los diálogos con un tono monótono y apagado, típico del acento eslavo. No hay reparto, ni cambios de voz entre los personajes. El público más joven no las tolera. "Preguntale a cualquier polaco y te va a decir que son terribles", dice Mateusz Staniszewski, cofundador de ElevenLabs, una empresa de inteligencia artificial aplicada al habla. "Supongo que fue una idea comunista que se impuso como una forma barata de producir contenido", agrega.
Mientras trabajaba en Palantir, Staniszewski se asoció con su amigo del colegio secundario, Piotr Dabkowski, ingeniero en Google, para hacer pruebas con inteligencia artificial. Los dos se dieron cuenta de que uno de los proyectos, un entrenador de oratoria con IA que mostraba un potencial particular, podía resolver ese problema tan típicamente polaco: que Leonardo DiCaprio o Scarlett Johansson quedaran opacados por un lector "estrella" como Maciej Gudowski.
Juntaron sus ahorros y, en mayo de 2022, dejaron sus trabajos para dedicarse de lleno a ElevenLabs. Desde el inicio, su nuevo generador de texto a voz con inteligencia artificial superaba por lejos a las voces robóticas de Siri, de Apple, y Alexa, de Amazon. Las voces creadas por ElevenLabs lograban transmitir felicidad, emoción e incluso risas.
En enero de 2023, ElevenLabs presentó su primer modelo. Podía tomar cualquier texto y leerlo en voz alta con inteligencia artificial, usando cualquier voz, incluso una clonada del propio usuario (o, de forma preocupante, la de otra persona). La demanda no tardó en llegar. Autores empezaron a usar el software para crear audiolibros al instante —las tarifas profesionales hoy parten desde US$ 99 por mes, con mayor calidad y más tiempo—. Creadores de YouTube lo adoptaron para traducir sus videos a otros idiomas: el modelo ya puede hablar en 29 lenguas. La startup, con base en Varsovia y Londres, cerró acuerdos con plataformas de aprendizaje de idiomas y meditación. Más tarde, se sumaron empresas de medios como HarperCollins y la alemana Bertelsmann. "Era obvio que este era el mejor modelo y todos lo estaban eligiendo", expresa la inversora Jennifer Li, de Andreessen Horowitz, que colideró una ronda de financiación de US$ 19 millones en mayo de 2023. Un año después, los cofundadores fueron incluidos en la lista Forbes 30 Under 30 Europe.
Otros, sin embargo, encontraron usos más desconcertantes: imitadores de IA de figuras públicas como el presidente Trump narrando con crudeza duelos de videojuegos, la actriz Emma Watson leyendo Mi Lucha y el podcaster Joe Rogan promocionando estafas se viralizaron rápidamente. Peor aún, los estafadores comenzaron a usar herramientas de clonación de IA para suplantar las voces de sus seres queridos y robar millones en sofisticadas estafas de deepfakes.
Nada de eso frenó el entusiasmo de los fondos de inversión. ElevenLabs ya recaudó más de US$ 300 millones y, en octubre, alcanzó una valuación de US$ 6.600 millones, lo que la ubicó entre las startups más valiosas de Europa. Staniszewski, de 30 años, es el director ejecutivo (la empresa no usa cargos tradicionales) y Dabkowski, también de 30, dirige el área de investigación. Ambos ya son multimillonarios, con una fortuna estimada en poco más de US$ 1.000 millones cada uno, según cálculos de Forbes.
Casi la mitad de los US$ 193 millones que ElevenLabs facturó en los últimos 12 meses proviene de empresas como Cisco, Twilio y la agencia suiza de contratación Adecco, que usan su tecnología para atender llamadas de servicio al cliente o entrevistar candidatos. Epic Games la incorporó para dar voz a personajes de Fortnite, incluyendo una conversación con Darth Vader (con el consentimiento de los herederos de James Earl Jones). La otra mitad de los ingresos llega de youtubers, podcasters y autores que estuvieron entre los primeros en adoptar la herramienta. "Cuando hablás con ellos, te sorprende lo buenos que son", dice el analista de Gartner, Tom Coshow. A diferencia de muchas compañías de inteligencia artificial, ElevenLabs también da ganancias: tuvo una ganancia neta estimada en US$ 116 millones en los últimos 12 meses, con un margen del 60%.
Hoy, ElevenLabs compite con gigantes como Google, Microsoft, Amazon y OpenAI para convertirse en la voz por defecto de la inteligencia artificial. No es un terreno nuevo: las empresas tecnológicas empezaron a desarrollar productos para escuchar, transcribir y generar voz hace unos diez años. Aunque para Microsoft es una actividad secundaria, Satya Nadella estuvo dispuesto a pagar US$ 20.000 millones para comprar Nuance —el servicio de transcripción de voz que cotiza en el Nasdaq— en marzo de 2022. OpenAI, por su parte, lanzó su propia herramienta de voz en octubre de 2024, capaz de integrar conversaciones humanas dentro de ChatGPT.
Pero el equipo de 300 personas de ElevenLabs no está corriendo de atrás. Sus modelos son tan buenos que pueden cobrar hasta tres veces más que sus rivales estadounidenses. Su biblioteca, con 10.000 voces que suenan increíblemente humanas, es la más grande por lejos y ya incluye a figuras como Michael Caine y Matthew McConaughey. También es más confiable. La startup de entrenamiento de datos Labelbox puso a prueba seis de los mejores modelos de voz con un cuestionario de lectura y descubrió que ElevenLabs cometía la mitad de errores que su competidor más cercano, OpenAI. "Somos una de las pocas empresas que están por delante de OpenAI, no solo en voz, sino también en voz a texto y música. Eso es difícil", sostiene Staniszewski. La fórmula de ElevenLabs es sencilla: un grupo reducido de investigadores en aprendizaje automático, con una obsesión por resolver un problema específico, y un presupuesto ajustado. Los propios cofundadores asumieron el primer entrenamiento del modelo, que costó US$ 100.000. "Tener una tonelada de cálculos puede ser una maldición porque no pensás cómo resolverlos de manera inteligente", señala Dabkowski.
Pero una demanda presentada por dos narradores de audiolibros sugiere otro factor detrás del avance. Karissa Vacker y Mark Boyett acusaron a ElevenLabs de haber usado miles de audiolibros con derechos de autor para entrenar sus modelos. Según ellos, se extrajeron tantos fragmentos de sus libros que los clones de sus voces terminaron siendo opciones predeterminadas en la plataforma. La empresa negó haber cometido irregularidades y el caso se resolvió por fuera de los tribunales en noviembre. (Vacker y Boyett no respondieron a un pedido de comentarios; ElevenLabs evitó hacer más declaraciones).
La empresa empezó a mostrar señales de madurez. Finalmente elaboró una lista de voces prohibidas —en su mayoría de políticos y celebridades— después de que un clon de la voz de Joe Biden, generado con ElevenLabs, se usara en una campaña de llamadas automáticas para desalentar el voto durante las primarias demócratas de 2024. Actualmente, la compañía tiene a siete moderadores humanos trabajando a tiempo completo (además de los sistemas de inteligencia artificial) para revisar los videos y detectar posibles usos indebidos. Las voces recién clonadas deben pasar una verificación de consentimiento, y la plataforma ofrece un detector de deepfakes gratuito.
Staniszewski y Dabkowski tienen planes ambiciosos que van más allá de la voz. Tanto los creadores con poco presupuesto como las empresas de medios con cuentas ajustadas buscaban música de fondo sin pagar regalías, así que en agosto lanzaron un generador musical con inteligencia artificial. ¿No tenés tiempo para grabar un video? El año que viene, ElevenLabs planea ofrecer avatares con IA para presentar contenidos al estilo de Sora. La apuesta más grande es integrar toda su tecnología en un solo centro, donde los clientes puedan gestionar todas sus herramientas de inteligencia artificial. "Estamos construyendo una plataforma que permite crear agentes de voz e implementarlos sin problemas", dice Staniszewski.
Claro que esto pone a ElevenLabs en rumbo de colisión con otras startups que buscan hacer lo mismo. Haber sido rentable desde el inicio le juega a favor, pero sus competidoras tienen una financiación sólida y los gigantes tecnológicos cuentan con recursos casi infinitos. Aun así, necesita seguir innovando. Los modelos de voz pronto se volverán un producto más. Y cuando el resto alcance su nivel, es probable que los clientes, que ya empiezan a resistirse a los precios de ElevenLabs, se pasen a otra opción.
A medida que se expande más allá de las voces hacia la música y el video, lo que demanda más capacidad computacional, ElevenLabs necesita ampliar sus propias granjas de GPU para seguir siendo competitiva. Ya invirtió US$ 50 millones en un centro de datos en Oregón. "Si queremos construir una empresa generacional en IA, necesitamos escala, y nosotros la estamos construyendo", afirma Staniszewski.
En Polonia, el envejecido cuerpo de lectores sigue activo, por ahora. Dabkowski no perdió de vista la propuesta original de ElevenLabs y asegura que su próximo modelo podrá traducir y poner voz a una película entera en una sola toma. "Nunca nos rendimos en nuestras misiones", concluye.
*Con información de Forbes US.