banner
Maison / Blog / Détails sur les mises à jour de l'IA de Google sur l'infrastructure cloud • The Register
Blog

Détails sur les mises à jour de l'IA de Google sur l'infrastructure cloud • The Register

Aug 10, 2023Aug 10, 2023

Cloud Next Google se concentre sur l'IA lors du Cloud Next de cette année, avec une multitude de projets matériels, notamment des mises à jour TPU, des options GPU et une multitude d'outils logiciels pour que tout fonctionne.

Lors de la première version en personne de l'événement depuis avant la pandémie, qui s'est tenue dans l'immense Moscone Center de San Francisco, Google a dévoilé des détails sur son Cloud TPU v5e, le dernier de ses accélérateurs Tensor Processing Unit AI, ainsi que des instances de machines virtuelles alimentées par Google. par les GPU Nvidia H100.

Les TPU sont le silicium personnalisé de Google pour accélérer l'apprentissage automatique, et le service Cloud TPU est basé sur le propre framework d'apprentissage automatique TensorFlow de l'entreprise en plus d'autres frameworks, notamment Jax et PyTorch.

Sa précédente puce d'IA, TPU v4, a été officiellement lancée en 2021, bien que le géant de la recherche la teste depuis plusieurs années auparavant.

Avec Cloud TPU v5e, Google affirme avoir doublé les performances de formation par dollar et 2,5 fois les performances d'inférence par dollar sur les grands modèles de langage (LLM) et l'IA générative, par rapport à Cloud TPU v4.

Le géant du cloud utilise les moteurs TPUv4 pour effectuer des inférences pour son propre moteur de recherche et ses propres plateformes de diffusion de publicités.

Google proposera huit configurations de machines virtuelles différentes, allant d'une puce TPU à plus de 250 dans une seule tranche.

Bien entendu, ce n’est pas uniquement une question de matériel. Ils se concentrent sur une plus grande évolutivité pour gérer de grandes charges de travail d'IA dans Cloud TPU v5e avec une fonctionnalité appelée Multislice. Actuellement en avant-première, cela a été développé pour permettre aux utilisateurs de mettre à l'échelle des modèles au-delà des limites d'un seul module TPU pour englober des dizaines de milliers de puces TPU, si nécessaire. Les tâches de formation étaient auparavant limitées à une seule tranche de puces TPU.

Les instances de machine virtuelle A3 de Google sont également destinées aux charges de travail d'IA exigeantes telles que les LLM, qui disposent de huit GPU Nvidia H100, de deux processeurs Intel Xeon Scalable de 4e génération et de 2 To de mémoire. Ces instances ont été annoncées pour la première fois lors de Google IO en mai, mais devraient désormais être disponibles le mois prochain, a-t-il indiqué.

Avec des améliorations de la bande passante réseau grâce à un adaptateur réseau de déchargement et à la bibliothèque de communications Nvidia Connective (NCCL), Google s'attend à ce que les machines virtuelles A3 fournissent un coup de pouce aux utilisateurs cherchant à créer des modèles d'IA toujours plus sophistiqués.

Google Next a également fourni des détails sur GKE Enterprise, décrit comme une édition premium du service géré Google Kubernetes Engine (GKE) de l'entreprise pour les charges de travail conteneurisées.

L'édition GKE Enterprise, qui sera disponible en avant-première début septembre, comporte une nouvelle fonctionnalité multicluster qui permet aux clients de regrouper des charges de travail similaires sous forme de « flottes » et d'appliquer des configurations personnalisées et des garde-fous politiques à l'ensemble de la flotte, a déclaré Google.

Cette édition est livrée avec des fonctionnalités de sécurité gérées, notamment des informations sur les vulnérabilités des charges de travail, des contrôles de gouvernance et de politique, ainsi qu'un maillage de services gérés. Grâce aux capacités tirées de la plate-forme Anthos de Google, la société affirme que l'édition GKE Enterprise peut couvrir des scénarios hybrides et multi-cloud pour permettre aux utilisateurs d'exécuter des charges de travail de conteneurs sur d'autres cloud publics et sur site ainsi que sur GKE.

De plus, GKE lui-même prend désormais en charge les instances de machine virtuelle Cloud TPU v5e et A3 avec des GPU H100 pour les charges de travail d'IA exigeantes, a déclaré Google.

Poursuivant également le thème de l'IA, Google apporte des ajouts à son offre Google Distributed Cloud (GDC), ainsi qu'un matériel mis à jour pour prendre en charge l'extension sur site de sa plate-forme cloud.

Les trois nouvelles offres d'IA et de données sont les intégrations Vertex AI, AlloyDB Omni et Dataproc Spark. Les intégrations Vertex apportent Vertex Prediction et Vertex Pipelines à GDC Hosted, bien que celles-ci ne soient disponibles en avant-première qu'à partir du deuxième trimestre 2024.

AlloyDB Omni est un nouveau moteur de base de données géré, censé offrir deux fois la vitesse de PostgreSQL pour les charges de travail transactionnelles, et actuellement disponible en version préliminaire.

Dataproc Spark est un service géré permettant d'exécuter des charges de travail d'analyse sous Apache Spark, censé offrir aux utilisateurs des coûts inférieurs à ceux du déploiement de Spark eux-mêmes. Il sera disponible en avant-première à partir du quatrième trimestre.