Contexte de la mission
Dans le cadre d’un programme de transformation data, une équipe Data Connect doit mettre en place un module d’ingestion de données sources au format Excel (.xlsx, .xls) et CSV. Ce module assure le dépôt des fichiers dans la couche RAW d’un Data Lake (Azure ADLS Gen2 / AWS S3), à destination d’équipes produits en charge de construire les Data Products finaux.
La solution cible s’articule en trois couches :
– Front-End : Interface applicative permettant à l’utilisateur de déposer ses fichiers et configurer la destination.
– Middleware : Génération automatique d’un Data Contract Source via Pydantic, validation générique du schéma, orchestration via services IA et agents intelligents.
– Back-End : Traitement et stockage multi-cloud, gestion des droits d’accès (IAM), versioning, logique Upsert/Overwrite.
La mission est initialement portée par une plateforme data transverse et a vocation à être étendue en produit enterprise. Le prestataire s’intégrera dans un écosystème existant de frameworks d’ingestion et interagira avec plusieurs équipes disposant déjà d’approches d’ingestion hétérogènes (SharePoint, scripts Python custom, outils de copie cloud).
Environnement technique
Plateforme digitale d’entreprise
Azure Data Lake Storage Gen2 (couche RAW principale)
AWS S3 (cible secondaire selon les équipes)
Databricks (orchestration et traitement)
Middleware IA / Agents IA
Frameworks d’ingestion existants à benchmarker
Outils de transfert de données internes
Pydantic (génération de Data Contracts)
Outil de gouvernance data type Collibra
Entra ID / Azure Key Vault / IAM AWS (sécurité et droits)
Note à l’attention des candidats
Ce module est au croisement de l’ingénierie de données, de la gouvernance et de l’IA. La compétence clé différenciante est la maîtrise de Pydantic pour la génération de Data Contracts ainsi que la robustesse du parsing Python sur des fichiers Excel/CSV hétérogènes, davantage que l’expertise Big Data distribuée. Une expérience dans des environnements data enterprise complexes constitue un atout.
Objectifs et livrables1. Ingestion de fichiers sources Excel / CSV
– Développer le connecteur d’ingestion de fichiers .xlsx, .xls et .csv vers la couche RAW (ADLS Gen2 / S3).
– Assurer la robustesse du parsing (gestion des encodages, formats de dates, feuilles multiples, colonnes variables).
– Implémenter la logique de dépôt : Upsert, Overwrite, versioning des fichiers ingérés.
– Gérer les droits d’accès et la sécurité (IAM Azure / AWS, Key Vault).
2. Data Contract & Gouvernance
– Générer automatiquement un Data Contract Source via Pydantic lors de l’ingestion (schéma, types, fréquence, règles de qualité).
– Implémenter la validation générique du schéma avant hébergement en couche RAW.
– Assurer la traçabilité et la qualité des données tout au long du cycle d’ingestion.
– Interagir avec les équipes de gouvernance pour le référencement des sources.
3. Middleware & Orchestration
– Intégrer la solution dans l’écosystème IA et agents intelligents de l’entreprise.
– Développer les API ou services Python constituant la couche middleware du module.
– Benchmarker l’existant afin d’assurer la cohérence et réutiliser les artefacts disponibles.
4. Cycle produit & Collaboration
– Intervenir sur l’ensemble du cycle de vie : Discovery, Build, Run, Monitoring.
– Travailler en méthodologie Agile avec le Product Owner et les Tech Leads des équipes concernées.
– Participer aux revues de code et contribuer à la documentation technique.
Compétences demandées
AWS : Avancé
Data Governance : Élémentaire
Programmation Python : Confirmé
API : Avancé
Pydantic : Confirmé
Databricks : Avancé
IA générative : Avancé
Microsoft Azure : Avancé
Compétences demandées
AWS : Avancé
Data Governance : Élémentaire
Programmation Python : Confirmé
API : Avancé
Pydantic : Confirmé
Databricks : Avancé
IA générative : Avancé
Microsoft Azure : Avancé
AWS : Avancé
Data Governance : Élémentaire
Programmation Python : Confirmé
API : Avancé
Pydantic : Confirmé
Databricks : Avancé
IA générative : Avancé
Microsoft Azure : Avancé
Réinventer l’avenir : l’innovation humaine au cœur de la technologie 🚀 Quelques chiffres clés 30+ clients accompagnés 25+ experts data & IA 2.6 M€ de chiffre d’affaires 2 centres d’expertise 100+ formations par an 15% du CA investi en R&D 🧠 Notre mission Placer l’humain au cœur de la donnée pour créer des solutions intelligentes, responsables et à impact, en alliant expertise technologique, innovation et agilité. 🧩 Nos domaines d'expertise Stratégie data & gouvernance Transformation & qualité de la donnée Ingénierie Big Data Science des données & IA DevOps & automatisation Formation & acculturation data 💡 Nos services Diagnostic de maturité Roadmap IA & data IA générative & éthique Automatisation intelligente Analyse prédictive Data visualisation & UX Gouvernance & qualité des données Architecture cloud & CI/CD 👥 Notre équipe 25+ experts data 10+ spécialistes en stratégie data 5 PhD R&D 5 formateurs certifiés 🧬 Notre méthodologie Customer-centric : solutions co-construites avec nos clients Approche Agile & itérative Expertise sur toute la chaîne de valeur data Autonomisation des équipes métiers 🔁 Cycle de vie de la donnée Collecte multi-source Qualité & préparation Visualisation & dataviz Analyse prédictive & IA Déploiement automatisé (CI/CD) 🎓 Craftmandata Académie Formations inter/intra-entreprise Distanciel ou présentiel Modules sur l’IA, Cloud, DataViz... Formation de "champions métiers" 🧪 Craftmandata Lab – L’innovation concrète 15% du CA dédié à la R&D Projets internes : IA de qualité de données Détection de fraude Classification automatique NLP sur verbatims clients Suivi de la mixité & égalité Calcul de bilan carbone numérique 🛠 Notre écosystème technologique Cloud & microservices Big Data & NoSQL Machine Learning & Deep Learning VueJS, Redis, API, ELT/ETL Outils low/no-code Datalake, Data Catalog, DataViz 🌍 Nos clients & secteurs Banque | Assurance | Industrie | Énergie | Retail | Télécom | Transport