Philippe Toublant (Colas DS) : « notre BI est conçue en agile pur avec une équipe par métier »
Par Bertrand Lemaire | Le | Cas d’usage
Le groupe de BTP Colas est spécialisé dans les infrastructures routières et ferroviaires. Philippe Toublant, CDO de Colas Digital Solutions, explique ici sa stratégie.
Pouvez-vous nous présenter le groupe Colas ?
Nous sommes un groupe de BTP spécialisé dans la construction et la maintenance des infrastructures routières et ferroviaires. Nous revendiquons un leadership mondial : 60 % de notre chiffre d’affaires provient de pays où Colas est en tête de son marché. 40 % est réalisé en France, 22 % sur le reste de l’Europe, 30 % en Amérique du Nord, le solde ailleurs.
Nous sommes présents dans 50 pays et 5 continents. Nous réalisons chaque année 60 000 projets grâce à 900 unités d’exploitation de travaux et 58 000 collaborateurs. Nous disposons également de 3000 unités de production et de recyclage de matériaux (477 carrières et gravières, 507 postes d’enrobés et 166 usines de béton prêt à l’emploi). Notre chiffre d’affaires est de 15,5 milliards d’euros (2022). 21 % de ce chiffre d’affaires est dans les activités dites industrielles : matériaux, bitume et enrobés. La construction routière domine avec 71 %, le rail ne représentant que 7 %.
Contrairement à ce que beaucoup de gens croient encore, notre nom n’est pas celui du fondateur mais est une abréviation de COLd ASphalte.
Quelle est la place de Colas Digital Solutions dans le groupe ?
Il s’agit, en fait, d’une filialisation de la fonction IT.
En central, nous disposons de divisions projets (par services supports, métiers…), de responsables data (Big Data, IA, reporting, BI…) et des équipes dédiées à la cybersécurité. Ensuite, il y a une DSI par « plaque » : France, Europe, USA-Canada, Afrique, Asie-Pacifique-Amérique Latine.
Quels sont vos grands choix d’infrastructures ?
Côté infrastructures, nous menons une convergence vers deux datacenters propres, l’un en France, l’autre aux Etats-Unis, avec du cloud public en complément. Mais, comme nous rachetons souvent des entreprises, celles-ci doivent être intégrées.
Pour la data, nous sommes en 100 % Cloud sur Microsoft Azure avec les solutions de Databricks et des technologies open-source telles que Python, Angular.JS, Scala, AKS, etc.
Chez Colas, à quoi correspond votre patrimoine de données ?
Bien entendu, nous avons un ensemble de données classiques (personnel, finances…). Mis à part cela, nous avons trois grands domaines de données.
Tout d’abord, les données peuvent relever de l’excellence opérationnelle. Par exemple, nous disposons d’usines d’enrobés (granulats et bitume) associées à des carrières (granulats avec tailles variées…). La data permet le pilotage de l’usine afin d’accroître son efficience énergétique (notamment sur la consommation de fioul, de gaz et d’électricité). Il s’agit également d’assurer une adéquation entre la production et la demande de matériaux.
Par ailleurs, la performance des équipements (engins de chantier…) est également optimisable par la data. Par exemple, on peut optimiser le taux d’usage et le positionnement sur les chantiers (via IoT) mais ce n’est pas tout. Nous avons collecté des données sur la large gamme d’engins que nous utilisons et, désormais, nous pouvons faire de la maintenance prédictive.
Deuxième usage, ce qui relève de la mobilité innovante. La data peut être utile pour fabriquer des routes plus respectueuses de l’environnement avec une maintenance prédictive des infrastructures que nous entretenons (nous pouvons avoir des contrats sur l’entretien des routes d’un quartier, d’une ville…). De plus, nous pouvons collecter la donnée des infrastructures existantes pour bien calibrer nos réponses aux appels d’offres.
Enfin, peut-être le plus important, la data nous aide dans la limitation de l’empreinte environnementale. Nous avons un objectif de réduction de 30 % d’ici 2030. La data a, déjà, comme utilité de permettre de calculer notre empreinte environnementale à partir des flux physiques (achats du groupe avec unification des unités, calcul de l’empreinte CO² associée…). Beaucoup d’éditeurs disent qu’ils ont des outils pour cela mais le plus compliqué n’est pas d’extraire des données de l’ERP mais bien d’identifier les achats, de les mettre dans les bonnes cases avec les bonnes empreintes associées, etc. Réaliser un beau diagramme à la fin, c’est simple ! Or c’est là ce que proposent la plupart des éditeurs. Pour cela, nous avons réalisé des développements en Power BI sur Azure.
Quels sont vos choix généraux d’architecture pour traiter ces données ?
Comme je l’ai indiqué, nous sommes en 100 % Cloud sur Microsoft Azure. Nous menons des projets par thématiques. Nous collectons les données dans l’ensemble de la cinquantaine de pays où nous sommes présents dans un très grand nombre de systèmes sources. La collecte est quotidienne puis nous agrégeons et stockons la data dans un datawarehouse unique (sous forme de fichiers Blob). Comme il y a plus de 170 To, un SGBD-R était tout à fait exclu. Ce datalake est « l’unique source de vérité ». Databricks nous permet de faire l’injection et le traitement de mise en qualité.
La consommation de ces données s’effectuent en général via Power BI par nos data analysts ou via des traitements en Python par nos data scientists.
Avec SQL Endpoint de Databricks, nous gérons aussi des datamarts connectés sous la forme d’un schéma en étoile : une table de faits et des aspects.
Comment gérez-vous la relation avec les métiers pour mener ces projets ?
En matière de data analytics, en général, ce sont les métiers qui viennent nous voir avec des besoins. Comme je vous le disais, nous sommes organisés plutôt par lignes métiers (une équipe par BU métier) même si la data elle-même est transverse. En soutien partagé entre les différentes équipes dédiées aux métiers, nous avons en plus trois usines de développement web, une consacrée aux Power Apps, une à Power BI et une à la data collection. Notre BI est conçue en agile pur et complet, avec product owner, product manager et sprints de quinze jours.
Sur la datascience, l’IA, les technologies innovantes, nous sommes plutôt moteurs. Par exemple, pour ce qui concerne l’analyse de l’efficience des usines d’enrobés, c’est nous qui avons proposé au métier le produit.
Est-ce que, pour vous, la guerre des talents est un sujet ?
Oui, comme pour tout le monde ! Faire de la data science dans un groupe de BTP, ce n’est pas spontanément évident pour les jeunes diplômés. Nous développons donc nos relations avec les écoles (avec des visites), des hackatons et de nombreux stagiaires et alternants (environ 5 ou 6 dans une équipe data de 30).
Nous avons créé l’équipe data il y a environ cinq ans et nous avons pu la créer comme nous le voulions. Faire de la computer vision sur les routes, travailler sur l’optimisation de l’empreinte environnementale… ce sont des projets passionnants associés à des enjeux forts.
Les candidats que nous recevons nous demandent de bénéficier de télétravail pour mieux équilibrer leurs vies professionnelles et personnelles. Chez nous, nous acceptons trois jours par semaine, pas plus pour garder un sens de l’équipe. Bien sûr, ils s’intéressent à nos projets et réaliser des projets de datascience dans 50 pays, ce n’est pas rien. Un ancien alternant de mon équipe travaille aujourd’hui pour le groupe aux Etats-Unis. Et puis ils nous challengent sur l’empreinte environnementale. Nous avons réalisé un séminaire de deux jours avec l’ensemble des managers l’an dernier sur l’optimisation de l’empreinte environnementale : donc, oui, c’est un sujet !
Comme vous pouvez voir, le salaire n’est pas dans les trois sujets majeurs. Mais si c’est l’intérêt principal de quelqu’un, il me sera difficile de luter contre les GAFAM ou autres groupes qui proposent parfois des salaires très hauts.
Quels sont vos défis aujourd’hui ?
D’abord, je dirais déployer des outils digitaux avec de l’IA jusqu’auprès des compagnons (collaborateurs de terrain). Cela implique de faire disparaître la technicité de la datascience pour les chefs de chantier. En effet, il est compliqué de demander encore plus de saisie d’informations aux collaborateurs de terrain. Il faut donc que la collecte de données, par exemple, soit simple. La data, comme l’IT, doivent être des outils de simplification du quotidien des compagnons, pas de complication. Aujourd’hui, les chefs de chantier ont des iPads dans les mains ! Cela dit, il reste compliqué pour nous de bien comprendre tous les métiers de terrain avec leurs besoins alors même que les chantiers sont très variés et dispersés, c’est pourquoi nous faisons beaucoup d’immersion terrains.
Enfin, nous voulons faire de notre outil de type SIG/jumeau numérique d’infrastructures, nommé 2IN (lire « Twin »), la porte d’entrée aux datas internes et aux données externes open-data que nous utilisons. Nous réalisons pour cela un développement spécifique sur Azure avec des données dans Databricks et une géovisualisation sur l’outil open-source Mapbox.
Podcast - La data pour optimiser l’empreinte environnementale
Le groupe de BTP Colas, spécialisé dans les infrastructures routières et ferroviaires, utilise la data pour limiter son empreinte environnementale. Bien que d’un secteur très impactant par la nature même de son activité, le groupe s’est ainsi engagé à réduire 30 % son empreinte d’ici 2030. Philippe Toublant, CDO de Colas Digital Solutions, explique ici comment la data est utilisée pour atteindre cet objectif.