EuroWire , SAN FRANCISCO : Microsoft presentó el 26 de enero Maia 200, la segunda generación de su acelerador de inteligencia artificial interno, diseñado para ejecutar modelos de IA en producción en centros de datos de Azure. La compañía afirmó que Maia 200 está diseñado para la inferencia, la etapa donde los modelos entrenados generan respuestas a solicitudes en tiempo real, y se utilizará para respaldar una gama de servicios de IA de Microsoft.

Maia 200 se fabrica mediante el proceso de 3 nanómetros de TSMC e incluye más de 140 000 millones de transistores, según Microsoft . Los chips funcionan con un nuevo sistema de memoria que incluye 216 gigabytes de memoria HBM3e de alto ancho de banda y aproximadamente 272 megabytes de SRAM en chip, diseñado para soportar la generación de tokens a gran escala y otras cargas de trabajo con gran capacidad de inferencia.
Microsoft afirmó que Maia 200 ofrece más de 10 petaflops de rendimiento con una precisión de 4 bits y aproximadamente 5 petaflops con una precisión de 8 bits, formatos comúnmente utilizados para ejecutar la IA generativa moderna de manera eficiente. La compañía también indicó que el sistema está diseñado con una potencia de 750 vatios y está construido con redes escalables que permiten la interconexión de chips para implementaciones de mayor envergadura.
La compañía afirmó que el nuevo hardware ha comenzado a operar en un centro de datos de Azure US Central en Iowa, con una ubicación adicional prevista en Arizona. Microsoft describió a Maia 200 como su sistema de inferencia más eficiente implementado hasta la fecha, reportando una mejora del 30% en el rendimiento por dólar en comparación con sus sistemas de inferencia existentes.
Enfoque en la inferencia de IA e implementación de Azure
Microsoft afirmó que Maia 200 está diseñado para respaldar productos y servicios de IA que dependen de la ejecución de modelos de alto volumen y baja latencia, incluyendo cargas de trabajo que se ejecutan en Azure y las propias aplicaciones de Microsoft. La compañía afirmó que ha diseñado el chip y el sistema circundante como parte de un enfoque de infraestructura integral que incluye silicio, servidores, redes y software para implementar modelos de IA a escala.
Junto con el chip, Microsoft anunció el acceso anticipado a un kit de desarrollo de software Maia para desarrolladores e investigadores que trabajan en la optimización de modelos. La compañía afirmó que las herramientas están diseñadas para ayudar a los equipos a compilar y ajustar modelos para sistemas basados en Maia, y están estructuradas para integrarse en los flujos de trabajo comunes de desarrollo de IA utilizados para implementar la inferencia en la nube.
Afirmaciones de rendimiento y respaldo del modelo
Microsoft afirmó que Maia 200 está diseñado para ejecutar modelos de lenguaje de gran tamaño y sistemas de razonamiento avanzado, y que se utilizará para implementaciones de modelos internas y alojadas en Azure. La compañía ha posicionado el chip como un acelerador de inferencia de producción, lo que lo distingue de los sistemas centrados en el entrenamiento que suelen utilizarse para construir modelos antes de la implementación.
Microsoft ha acelerado el trabajo de silicio personalizado a medida que crece la demanda de computación para aplicaciones de IA generativa, donde los costos y la disponibilidad de aceleradores pueden afectar la velocidad de escalado de los servicios. Maia 200 sigue a Maia 100, presentado por Microsoft en 2023, y representa la última versión de la línea de aceleradores de IA dedicados a la inferencia en centros de datos.
La publicación Maia 200 impulsa Microsoft Azure con nuevo silicio de inferencia de IA apareció primero en English Chronicle .
