Google Cloud lanza las TPU Ironwood y refuerza Axion

Última actualización: noviembre 7, 2025
  • Ironwood, séptima generación de TPU, prioriza la inferencia con hasta 10x más rendimiento frente a v5p.
  • Interconexión ICI enlaza hasta 9.216 chips a 9,6 Tb/s y 1,77 PB de HBM compartida.
  • Integración en AI Hypercomputer con mejoras en GKE, vLLM y MaxText para reducir latencias y costes.
  • Axion amplía el cómputo general: N4A y C4A metal elevan la eficiencia con ganancias reportadas del 30% y 60%.

Infraestructura de TPU para IA en la nube

Google Cloud ha anunciado la disponibilidad general de sus nuevas TPU Ironwood, un salto relevante en aceleración de IA que llega acompañado de actualizaciones en la familia de CPU Axion. Para las organizaciones que operan en España y en el resto de Europa, la propuesta pone el foco en ejecutar modelos a escala con costes y consumo más contenidos, en un momento en el que la inferencia gana peso frente al entrenamiento.

La compañía sostiene que Ironwood ofrece hasta diez veces más rendimiento que la v5p y más de cuatro veces por chip respecto a la serie v6e, con mejoras de eficiencia energética y disponibilidad en “las próximas semanas”. El lanzamiento se integra en AI Hypercomputer, la arquitectura que combina cómputo, red, almacenamiento y software bajo un diseño cooptimizado.

La era de la inferencia: el nuevo eje del despliegue de IA

La industria se mueve de priorizar el entrenamiento a optimizar la inferencia, es decir, la ejecución de modelos en producción para responder en tiempo real. En este cambio de juego, la capacidad de orquestar cargas distribuidas y agentes inteligentes se vuelve crucial, tanto por rendimiento como por coste por petición.

Google plantea a Ironwood como respuesta a ese escenario, con una arquitectura orientada a flujos agénticos y a modelos de última generación. La intención es sostener desde sistemas como Gemini, Veo o Claude hasta aplicaciones complejas de IA generativa, manteniendo latencias consistentes y escalabilidad horizontal sin cuellos de botella.

Ironwood: arquitectura, rendimiento y escala

El corazón técnico de Ironwood se basa en la red Inter-Chip Interconnect (ICI), que alcanza 9,6 Tb/s y enlaza hasta 9.216 chips en un único pod. Este entramado de alta velocidad elimina embudos internos y permite ejecutar modelos de gran tamaño sin frenar el intercambio de datos entre aceleradores.

Junto a la interconexión, el sistema incorpora 1,77 petabytes de memoria HBM compartida, suficiente para mantener cargas masivas íntegramente en memoria y acelerar tanto inferencia como entrenamiento y aprendizaje por refuerzo. La combinación de ancho de banda y memoria reduce tiempos de respuesta y mejora el aprovechamiento del hardware.

Según la compañía, Ironwood representa su mayor salto de rendimiento en TPUs hasta la fecha. Estas cifras se traducen en la práctica en más tokens por segundo, más sesiones concurrentes y mejores ratios de coste por consulta para servicios que necesitan operar a gran escala.

Fiabilidad y operación a gran escala

Para reforzar la continuidad del servicio, Ironwood se apoya en conmutación de circuitos ópticos (OCS), capaz de reconfigurar rutas y redirigir tráfico de forma dinámica ante incidencias y en prácticas de observabilidad del DevOps moderno. El objetivo es sostener niveles de disponibilidad cercanos a los “cinco nueves” incluso en escenarios de alta demanda.

La topología puede extenderse de pods a superpods y más allá mediante la red óptica Jupiter, facilitando agrupaciones de cientos de miles de TPU. Entre los primeros casos de uso, Anthropic planea emplear hasta un millón de unidades para expandir su familia Claude, un indicador de la ambición con la que los grandes modelos adoptan esta infraestructura.

AI Hypercomputer y la capa de software

Ironwood se integra en el ecosistema AI Hypercomputer, donde hardware y software evolucionan de manera conjunta para reducir latencias, consumo y costes operativos. Esta cooptimización se extiende desde el chip hasta la red y el almacenamiento.

En la parte de software, Google incorpora mejoras en Kubernetes Engine con Cluster Director para programación y resiliencia de clústeres, además de avances en MaxText para entrenamiento de LLM. En inferencia, el soporte ampliado de vLLM facilita alternar entre TPU y GPU con cambios mínimos, mientras que GKE Inference Gateway reduce la latencia inicial hasta un 96% y rebaja el coste de servicio en torno a un 30%.

Axion: cómputo general eficiente en Arm

En paralelo, Google extiende Axion, su línea de CPU Arm para cargas de propósito general y tareas auxiliares a la IA. Las nuevas instancias N4A elevan la relación precio-rendimiento frente a x86 y combinan hasta 64 vCPU, 512 GB de DDR5 y conectividad de hasta 50 Gbps.

La compañía adelanta C4A metal, su primera opción bare-metal basada en Arm, pensada para escenarios especializados como desarrollo Android, automoción o simulación intensiva. En la gama C4A, los perfiles llegan hasta 72 vCPU, mientras que C4A metal sube a 96 vCPU y 768 GB de memoria, con redes de hasta 100 Gbps e integración con almacenamiento Hyperdisk.

Los socios iniciales reportan mejoras tangibles: Vimeo observa un 30% más de rendimiento en transcodificación sobre N4A, y ZoomInfo mide un aumento del 60% en eficiencia precio-rendimiento en sus flujos de datos críticos. Estas cifras apuntan a recortes de consumo y mayor densidad de carga a igual huella en centros de datos.

Competencia, demanda y retos de adopción

El movimiento de Google llega en plena carrera por el silicio de IA, donde las GPU de Nvidia siguen siendo mayoría. Con Ironwood, la firma refuerza su estrategia de integración vertical entre hardware, software y nube, una vía para diferenciarse por control operativo, disponibilidad y coste total de propiedad.

El interés del mercado es elevado y se refleja en el empuje de Google Cloud y su inversión en capacidad. Aun así, la adopción a gran escala exige centros con potencia eléctrica, refrigeración y conectividad acordes al nuevo techo de rendimiento, además de adaptar modelos y pipelines al ecosistema de TPU cuando proceda.

Para clientes en España y el resto de la UE, el paquete Ironwood + Axion ofrece una vía de modernización que combina aceleración dedicada y CPU eficientes. El registro anticipado para probar Ironwood, N4A y C4A metal ya está abierto, con la mira puesta en llevar la inferencia a producción con menores latencias, mejor throughput y control de costes.

Con este doble anuncio, Google Cloud perfila un tándem en el que las TPU Ironwood asumen la parte más intensiva de IA y las CPU Axion sostienen el tejido de servicios y datos. La apuesta se centra en escalar la inferencia, contener el coste por petición y ganar fiabilidad de extremo a extremo, tres factores que definirán cómo se despliega la IA en los próximos años.

mejores prácticas para adoptar IA
Artículo relacionado:
Mejores prácticas para adoptar IA en tu organización