Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Les nouveautés d'OKDP - Open Kubernetes Data Pl...

Les nouveautés d'OKDP - Open Kubernetes Data Platform

Support de l'atelier #BlueHats du 11 avril 2025

Voir https://code.gouv.fr/fr/bluehats/okdp-2025/ pour les détails.

BlueHats

April 11, 2025
Tweet

More Decks by BlueHats

Other Decks in Technology

Transcript

  1. 2 TOSIT est une association Loi de 1901. C’est une

    structure de soutien à l’Open Source. TOSIT Membres fondateurs Membres associés
  2. 4 OKDP Introduction et mise en contexte 1 • OKDP

    : l'acronyme de Open Kubernetes Data Platform. • C'est une plateforme de services de gestion de données composée d'un ensemble de logiciels et produits Open Source conteneurisés et repose sur une infrastructure Kubernetes • Elle répond à des enjeux et des besoins de collecte, de stockage, de traitement, d'analyse et d'exposition de données. • Pour ce faire, OKDP est modulable et chaque utilisateur pourra en utiliser tout ou partie selon ses besoins. • OKDP vise à offrir les moyens de valoriser pleinement les données. En exploitant cette plateforme, les utilisateurs pourront améliorer leur prise de décision, renforcer leur capacité à gérer et analyser des données complexes et stimuler l'innovation dans le domaine de la gestion des données.
  3. 5 OKDP Contexte DGFiP 1 • OKDP est une évolution

    et une continuation de TDP (la distribution sur laquelle se base le datalake). • Elle pourra s'y interfacer et proposera un enrichissement de fonctionnalités avec l'ajout de nouveaux produits ou logiciels et l'amélioration de ceux existants. • OKDP donne la possibilité à chaque entité manipulant la donnée de déployer facilement son environnement de travail et d'utiliser tous les outils adéquats. • Une première version d'OKDP est prévue fin premier semestre 2025, mais n'est pas encore planifiée pour son utilisation en extension du DATALAKE, une instruction de CAI sera bien entendu nécessaire en amont le moment venu. • S'agissant d'une distribution libre, elle regroupe plusieurs contributeurs depuis janvier 2024 : la DGFiP, ORANGE et très prochainement BPCE, ARKEA, Adaltas et bien d'autres.
  4. 6 OKDP Pourquoi OKDP ? 1 • Dans l'alignée de

    la stratégie Open Source de la DGFiP afin d'assurer notre autonomie et notre souveraineté • Une plateforme data centric, conteneurisée, open source, gratuite et production ready • Compléter notre architecture Datalake basée sur TDP avec de nouvelles briques et fonctionnalités complémentaires tout en respectant les mêmes normes et standards : • Scalabilité et mise à l’échelle • DataViz (SuperSet) • Interactive query (Requêtage libre) • MLOPS (ML, IA, IA Générative) • Expériences à la demandes • Observabilité (outils d’exploitation : supervision, monitoring, capacity planning, etc.) • Favoriser le partage de données dans un contexte de gouvernance, ayant pour objectif d'améliorer le partage de données et de minimiser sa duplication • Maîtriser le cycle de vie des technologies, du build au déploiement, sans aucune dépendance avec les éditeurs • En s’appuyant sur Kubernetes, OKDP prévient l’accumulation de dette technologique, assurant ainsi la pérennité, l’évolutivité et la modernisation continue du système d’information.
  5. 7 OKDP Bénéfices 1 • Coût réduit et Indépendance technologique

    : • Pas de souscription à des licences et au support d'un éditeur propriétaire • Pas de verrouillage propriétaire (vendor lock-in). • Flexibilité et personnalisation : • Modularité des composants : on peut ajouter ou retirer des services selon les besoins. • Possibilité de modifier et d’adapter le code source. • Interopérabilité : • S'intègre avec divers outils open-source populaires (Apache Spark, JupyterHub, Trino, etc.). • Compatible avec des infrastructures multi-cloud et sur site. • Conformité aux réglementations : • Plus de transparence sur la gestion des données. • Contrôle total sur l’hébergement et la sécurité des données. • Communauté et écosystème actif : • Support collaboratif via la communauté open-source et les entreprises impliquées (Orange, BPCE, Arkéa, etc).. • Mises à jour plus simples, régulières et innovations portées par les besoins des utilisateurs. • Préserver notre autonomie et notre souveraineté et une maîtrise totale de la solution au sein de la DGFiP
  6. Page 8 TDP & OKDP pour une architecture Data Centric

    Complete Data Processing and Visualization Data Management Data Integration Big Data Data Storage DATA SOURCES App 1 App 2 … App n Records Documents Files Messages Streams CI/CD On-Demand APPLICATIONS Security 8 Monitoring / Capacity P. Backup DRP On demand Data Experience
  7. 9 Contexte DGFIP et partenaires TOSIT 1 ETP depuis décembre

    2023 à la DGFiP ETP Estimation en 2025 à la DGFiP ETP en décembre 2023 côté partenaires TOSIT (ORANGE, BPCE, Arkéa et Adaltas) 2 1,5 3
  8. Page 10 OKDP: Architecture à base de Kubernetes et services

    on-demand 10 Data Processing, IA/ML and Visualization Data Management Data Integration Data Storage Kubernetes Platforms (RKE, EKS, AKS, GKE, etc.) Bare-Metal | Virtualization | Cloud Data Engineer Data Scientist / Statisticiens Data Analyst Business User Métiers CPUs / GPUs Object Storage / Block Storage / NFS SSO LDAP TLS Monitoring Backup DRP NUBO
  9. Page 11 OKDP: Compatibilité avec les nouveaux Pattern d’architecture (1)

    11 (1) Architecture Data Mesh Data Infra as a Platform (Stockage, pipeline, catalogue, Viz, etc.) Gouvernance Globale et Standards Domaine Data A Domaine Data B Domaine Data C Domaine Data D - Décentralisé - On-demand - Data Virt - Gouvernance centralisée - Ségrégation S/C
  10. Page 12 OKDP: Compatibilité avec les nouveaux Pattern d’architecture (2)

    Data Processing and Visualization ML OPS Data Integration Data Storage Records Documents Files Messages Streams 12 Kubernetes Platforms (RKE, EKS, AKS, GKE, etc.) Bare-Metal | Virtualization | Cloud CPUs / GPUs Object Storage / Block Storage / NFS Data Fabric - MLOPS - Décentralisé - On-demand - Multi-tenants - Kubernetes - Data Virt
  11. Page 13 OKDP: Compatibilité avec les nouveaux Pattern d’architecture (3)

    Data Processing and Visualization Gouvernance centralisée Collecte des données Format de stockage optimisé (ACID) Records Documents Files Messages Streams 13 Kubernetes Platforms (RKE, EKS, AKS, GKE, etc.) Bare-Metal | Virtualization | Cloud CPUs / GPUs Object Storage / Block Storage / NFS Lakehouse - ACID - SQL - Streaming - Interactive - Big & Small - Ségrégation S/C
  12. Page 14 OKDP : Architecture Technique (déploiement modulaire) 14 PV/PVC

    Load Balancer Security Observability Scheduling Ingress Controller Query Engine Stockage Autres Composants Traitement ML/AI AAA Certs Management Kubernetes Onyxia
  13. 15 Travaux réalisés Les grands jalons de 2024 Janvier 2024

    JupyterHub: On-Demand Notebooks 1 2 3 4 Avril 2024 Apache Spark : Moteur de traitement à large échelle T3 2024 SuperSet : Outil de visualisation et de dashboarding T4 2024 Sandbox avec guide utilisateur avec une première version de OKDP Server/UI
  14. 16 Roadmap Les grands jalons de 2025 Spark Operator Enrichissement

    de l’offre avec Spark Operator pour une meilleure gestion des jobs Spark 1 2 3 4 OKDP Server/UI Intégration d’une version initiale du serveur OKDP et de son interface utilisateur Trino, Iceberg et Polaris Ajout de Trino, Iceberg et Polaris offrants des capacités de requêtage en temps réel performantes Airflow Mise en place d’Apache Airflow pour l’automatisation et la gestion des workflows complexes
  15. 17 Roadmap Les grands jalons à moyen et long terme

    Sécurité Gestion centralisée et sécurisée des accès 1 2 3 4 Gestion des ressources Mise en place d’un système de gestion des files d’attente (queue management) pour optimiser l’allocation des ressources MLOps Adoption d’outils tels que Kubeflow et MLflow Observabilité Mise en place d’un système complet pour améliorer l’observabilité: logs, monitoring, audit, etc.
  16. 20 OKDP • Site Web: https://okdp.io • Weekly Technique (Chaque

    Mercredi 10h) : https://webconf.numerique.gouv.fr/OpenKubernentesDataPlatform2024 • Channel Mattermost Général : https://framateam.org/tosit/channels/okdp • Discussions GitHub pour les contributeurs: https://github.com/orgs/OKDP/discussions • GitHub: https://github.com/okdp • Repository maven central : https://central.sonatype.com/namespace/io.okdp • Repository quay.io : https://quay.io/organization/okdp Site Web et événements
  17. 21 OKDP • NuboOnyxia / OKDP : 1er avril 2025

    (10h30 - 12h00) • Présentation interne DGFIP : 7 avril 2025 • BlueHats : 11 avril 2025 (11h00 - 12h30) • BercyInnov : 26 juin 2025 • DataPublic : Date en cours de planification • Fondation Apache : Date en cours de planification • Big Data AI Paris 2025 : 1er et 2 octobre 2025 Prochains événements