: l'acronyme de Open Kubernetes Data Platform. • C'est une plateforme de services de gestion de données composée d'un ensemble de logiciels et produits Open Source conteneurisés et repose sur une infrastructure Kubernetes • Elle répond à des enjeux et des besoins de collecte, de stockage, de traitement, d'analyse et d'exposition de données. • Pour ce faire, OKDP est modulable et chaque utilisateur pourra en utiliser tout ou partie selon ses besoins. • OKDP vise à offrir les moyens de valoriser pleinement les données. En exploitant cette plateforme, les utilisateurs pourront améliorer leur prise de décision, renforcer leur capacité à gérer et analyser des données complexes et stimuler l'innovation dans le domaine de la gestion des données.
et une continuation de TDP (la distribution sur laquelle se base le datalake). • Elle pourra s'y interfacer et proposera un enrichissement de fonctionnalités avec l'ajout de nouveaux produits ou logiciels et l'amélioration de ceux existants. • OKDP donne la possibilité à chaque entité manipulant la donnée de déployer facilement son environnement de travail et d'utiliser tous les outils adéquats. • Une première version d'OKDP est prévue fin premier semestre 2025, mais n'est pas encore planifiée pour son utilisation en extension du DATALAKE, une instruction de CAI sera bien entendu nécessaire en amont le moment venu. • S'agissant d'une distribution libre, elle regroupe plusieurs contributeurs depuis janvier 2024 : la DGFiP, ORANGE et très prochainement BPCE, ARKEA, Adaltas et bien d'autres.
la stratégie Open Source de la DGFiP afin d'assurer notre autonomie et notre souveraineté • Une plateforme data centric, conteneurisée, open source, gratuite et production ready • Compléter notre architecture Datalake basée sur TDP avec de nouvelles briques et fonctionnalités complémentaires tout en respectant les mêmes normes et standards : • Scalabilité et mise à l’échelle • DataViz (SuperSet) • Interactive query (Requêtage libre) • MLOPS (ML, IA, IA Générative) • Expériences à la demandes • Observabilité (outils d’exploitation : supervision, monitoring, capacity planning, etc.) • Favoriser le partage de données dans un contexte de gouvernance, ayant pour objectif d'améliorer le partage de données et de minimiser sa duplication • Maîtriser le cycle de vie des technologies, du build au déploiement, sans aucune dépendance avec les éditeurs • En s’appuyant sur Kubernetes, OKDP prévient l’accumulation de dette technologique, assurant ainsi la pérennité, l’évolutivité et la modernisation continue du système d’information.
: • Pas de souscription à des licences et au support d'un éditeur propriétaire • Pas de verrouillage propriétaire (vendor lock-in). • Flexibilité et personnalisation : • Modularité des composants : on peut ajouter ou retirer des services selon les besoins. • Possibilité de modifier et d’adapter le code source. • Interopérabilité : • S'intègre avec divers outils open-source populaires (Apache Spark, JupyterHub, Trino, etc.). • Compatible avec des infrastructures multi-cloud et sur site. • Conformité aux réglementations : • Plus de transparence sur la gestion des données. • Contrôle total sur l’hébergement et la sécurité des données. • Communauté et écosystème actif : • Support collaboratif via la communauté open-source et les entreprises impliquées (Orange, BPCE, Arkéa, etc).. • Mises à jour plus simples, régulières et innovations portées par les besoins des utilisateurs. • Préserver notre autonomie et notre souveraineté et une maîtrise totale de la solution au sein de la DGFiP
Complete Data Processing and Visualization Data Management Data Integration Big Data Data Storage DATA SOURCES App 1 App 2 … App n Records Documents Files Messages Streams CI/CD On-Demand APPLICATIONS Security 8 Monitoring / Capacity P. Backup DRP On demand Data Experience
11 (1) Architecture Data Mesh Data Infra as a Platform (Stockage, pipeline, catalogue, Viz, etc.) Gouvernance Globale et Standards Domaine Data A Domaine Data B Domaine Data C Domaine Data D - Décentralisé - On-demand - Data Virt - Gouvernance centralisée - Ségrégation S/C
JupyterHub: On-Demand Notebooks 1 2 3 4 Avril 2024 Apache Spark : Moteur de traitement à large échelle T3 2024 SuperSet : Outil de visualisation et de dashboarding T4 2024 Sandbox avec guide utilisateur avec une première version de OKDP Server/UI
de l’offre avec Spark Operator pour une meilleure gestion des jobs Spark 1 2 3 4 OKDP Server/UI Intégration d’une version initiale du serveur OKDP et de son interface utilisateur Trino, Iceberg et Polaris Ajout de Trino, Iceberg et Polaris offrants des capacités de requêtage en temps réel performantes Airflow Mise en place d’Apache Airflow pour l’automatisation et la gestion des workflows complexes
Sécurité Gestion centralisée et sécurisée des accès 1 2 3 4 Gestion des ressources Mise en place d’un système de gestion des files d’attente (queue management) pour optimiser l’allocation des ressources MLOps Adoption d’outils tels que Kubeflow et MLflow Observabilité Mise en place d’un système complet pour améliorer l’observabilité: logs, monitoring, audit, etc.
Mercredi 10h) : https://webconf.numerique.gouv.fr/OpenKubernentesDataPlatform2024 • Channel Mattermost Général : https://framateam.org/tosit/channels/okdp • Discussions GitHub pour les contributeurs: https://github.com/orgs/OKDP/discussions • GitHub: https://github.com/okdp • Repository maven central : https://central.sonatype.com/namespace/io.okdp • Repository quay.io : https://quay.io/organization/okdp Site Web et événements
(10h30 - 12h00) • Présentation interne DGFIP : 7 avril 2025 • BlueHats : 11 avril 2025 (11h00 - 12h30) • BercyInnov : 26 juin 2025 • DataPublic : Date en cours de planification • Fondation Apache : Date en cours de planification • Big Data AI Paris 2025 : 1er et 2 octobre 2025 Prochains événements