L'infrastructure IA pour les managers

L'INFRASTRUCTURE IA-NATIVE Manager la transition vers la nouvelle ère de
l'Intelligence Computationnelle

Michel Hubert Chief Solution Architect @michelhubert Expert on IaC, DevSecOps,
Platform Engineering, IA Who am I ?

L'infrastructure n'est plus un centre de coût passif, mais le
moteur de votre avantage compétitif. De la gestion de serveurs à l'orchestration d'intelligence. De la prévisibilité linéaire à l'adaptation dynamique. Une révolution des coûts et de la performance. UN NOUVEAU PARADIGME STRATÉGIQUE

L'ÈRE TRADITIONNELLE Basée sur des machines virtuelles et Kubernetes standard.
Scalabilité horizontale linéaire (Besoin +1 = Machine +1). Patterns de charge lisses et prévisibles (Black Friday, Fin de mois). L'ÈRE IA-NATIVE Infrastructure qui "pense" et anticipe. Utilise le ML pour prédire les charges. Gère des pools de GPUs avec une granularité à la seconde. Négocie entre qualité, coût et latence. LE MONDE D'AVANT VS. L'IA-NATIVE

TAILLE & POIDS Oubliez les images Docker de 200 Mo.
Un LLM pèse entre 10 Go et 800 Go. Le chargement devient un événement critique. MÉMOIRE GPU Le modèle doit résider en VRAM. Une ressource rare, coûteuse et physiquement limitée. LATENCE VARIABLE Une requête peut prendre 100ms ou 10s. Le dimensionnement moyen devient impossible. LES 3 DÉFIS MAJEURS DE L'IA

10x ÉCART DE LATENCE P99 L'INCERTITUDE COMME CONSTANTE Contrairement aux
APIs REST classiques, il n'y a plus de requête "moyenne". Un utilisateur peut mobiliser un GPU pendant 30 secondes pour une seule demande complexe. L'infrastructure doit passer d'une réaction aux métriques à une prédiction des besoins. LE CHOC DE L'IMPRÉVISIBILITÉ

L'ENTRAÎNEMENT : LE MARATHON C'est l'usine à modèles. Un processus
batch intensif, massif et capitalistique. Dure des semaines sur des milliers de GPUs. Consomme des téraoctets de datasets. Bande passante critique entre nœuds (400 Gbps). Tolérance à la panne quasi nulle.

PERSONNALISATION MÉTIER On ne réapprend pas tout, on ajuste un
modèle existant sur vos données spécifiques (emails, jargon interne, produits). Besoin : Agilité plutôt que puissance brute. 1 à 8 GPUs pour quelques heures ou jours. LE FINE-TUNING : L'ATELIER AGILE

Caractéristique Entraînement Fine-Tuning Inférence Objectif Création initiale Adaptation métier Usage
production Ressources Milliers de GPUs 1 - 8 GPUs Élastique / Variable Latence Non critique Faible Ultra-critique Coût Capex massif Opex modéré Opex proportionnel COMPARAISON DES CHARGES DE TRAVAIL

LLM & MULTIMODAL Gèrent texte, image et audio. Taille gigantesque,
génération autoregressive séquentielle (chaque mot dépend du précédent). AGENTS AUTONOMES L'IA qui planifie et utilise des outils. Workflow complexe plutôt que simple réponse. Coût et durée imprévisibles. LA NOUVELLE DIVERSITÉ DES MODÈLES

Latence : Temps de réponse utilisateur Throughput : Volume de
requêtes / sec Coût : Facture GPU & Infrastructure LE TRIANGLE INFERNAL DE L'IA

"Le vrai goulot d'étranglement de l'IA moderne n'est pas le
calcul, c'est la donnée." — L'infrastructure est désormais au service de la donnée LE SECRET LE MIEUX GARDÉ

DATA LAKE Tout garder en vrac (S3, Hadoop). Flexibilité totale
mais "marécage" de données. LAKEHOUSE Le meilleur des deux mondes. Flexibilité du Lake + Performance du Warehouse. STREAMING La donnée vivante. Flux continus (Kafka) pour une IA temps réel réactive. IA-NATIVE Pipelines auto-correcteurs et gouvernance intégrée par défaut. L'ÉVOLUTION DES PARADIGMES DE DONNÉE

TEXTE & AUDIO Emails, logs, appels clients. Volume massif mais
facile à indexer. IMAGE & VIDÉO Scans médicaux, surveillance. Nécessite un stockage ultra-rapide. DOCS COMPLEXES PDFs avec mix texte/image. Le casse-tête du parsing IA. LE DÉFI DU NON-STRUCTURÉ

Qualité vs Quantité : Un petit dataset propre surperforme un
lac de données médiocre. Data Lineage : Capacité à tracer chaque prédiction jusqu'à sa source d'entraînement. Éthique & Biais : L'IA amplifie les biais. La gouvernance est une nécessité opérationnelle. Compliance RGPD : Gérer le droit à l'oubli dans des modèles entraînés. GOUVERNANCE : LA DONNÉE EST LE PRODUIT

L'ARMÉE DE SPÉCIALISTES Le CPU est un généraliste (32-128 cœurs
sophistiqués). Le GPU est une armée (7000+ cœurs simples). Efficacité : Le GPU offre un calcul par Watt bien supérieur pour les multiplications matricielles de l'IA. CPU VS GPU : SPÉCIALISATION MASSIVE

Économie d'énergie pour un même volume de calcul IA "Dans
un datacenter, le calcul par Watt est ROI." EFFICACITÉ ÉNERGÉTIQUE : LE NERF DE LA GUERRE

CLOUD PUBLIC Agilité totale, pas de Capex. Mais disponibilité limitée
et coût explosif sur la durée. ON-PREMISE Coût optimal pour charges constantes. Performance garantie mais Capex massif et gestion complexe. HYBRIDE / SPÉCIALISÉ Clouds spécialisés (CoreWeave, Lambda). Bare metal sans virtualisation pour la performance brute. GPU AS A SERVICE : QUEL MODÈLE CHOISIR ?

Passer de 20% à 80% d'utilisation réelle des GPUs. MIG
(Multi-Instance GPU) : Partitionner physiquement un GPU en 7 petites instances isolées. MPS (Multi-Process Service) : Plusieurs processus partagent un GPU simultanément (idéal pour l'inférence). Scheduling IA : Ray, Slurm ou Run:ai pour gérer les files d'attente et priorités. MUTUALISATION : MAXIMISER L'USAGE

LEÇONS DU TERRAIN L'investissement dans une plateforme d'orchestration intelligente (scheduling,
quotas, préemption) est rentabilisé en moins de 8 mois. Résultat : 7x réduction du coût par modèle entraîné. ÉTUDE DE CAS : OPTIMISATION FINTECH

POURQUOI L'EDGE AI ? Latence Zéro Décisions en microsecondes (ex:
sécurité usine). Confidentialité Les données ne quittent jamais le site local. Résilience Fonctionnement offline (ex: mines, plateformes). Économies Réduction de 99% de la bande passante cloud.

Coming soon …

QUESTIONS L'IA n'est pas une charge de travail comme les
autres. C'est une nouvelle catégorie d'infrastructure qui demande une nouvelle catégorie d'intelligence computationnelle. "

L'infrastructure IA pour les managers

L'infrastructure IA pour les managers

Michel Hubert

More Decks by Michel Hubert

Other Decks in Technology

Featured

Transcript

L'INFRASTRUCTURE IA-NATIVE Manager la transition vers la nouvelle ère de

Michel Hubert Chief Solution Architect @michelhubert Expert on IaC, DevSecOps,

L'infrastructure n'est plus un centre de coût passif, mais le

L'ÈRE TRADITIONNELLE Basée sur des machines virtuelles et Kubernetes standard.

TAILLE & POIDS Oubliez les images Docker de 200 Mo.

10x ÉCART DE LATENCE P99 L'INCERTITUDE COMME CONSTANTE Contrairement aux

L'ENTRAÎNEMENT : LE MARATHON C'est l'usine à modèles. Un processus

PERSONNALISATION MÉTIER On ne réapprend pas tout, on ajuste un

Caractéristique Entraînement Fine-Tuning Inférence Objectif Création initiale Adaptation métier Usage

LLM & MULTIMODAL Gèrent texte, image et audio. Taille gigantesque,

Latence : Temps de réponse utilisateur Throughput : Volume de

"Le vrai goulot d'étranglement de l'IA moderne n'est pas le

DATA LAKE Tout garder en vrac (S3, Hadoop). Flexibilité totale

TEXTE & AUDIO Emails, logs, appels clients. Volume massif mais

Qualité vs Quantité : Un petit dataset propre surperforme un

L'ARMÉE DE SPÉCIALISTES Le CPU est un généraliste (32-128 cœurs

Économie d'énergie pour un même volume de calcul IA "Dans

CLOUD PUBLIC Agilité totale, pas de Capex. Mais disponibilité limitée

Passer de 20% à 80% d'utilisation réelle des GPUs. MIG

LEÇONS DU TERRAIN L'investissement dans une plateforme d'orchestration intelligente (scheduling,

POURQUOI L'EDGE AI ? Latence Zéro Décisions en microsecondes (ex:

Coming soon …

QUESTIONS L'IA n'est pas une charge de travail comme les