Morade El Fahsi (Getlink) : « nous voulons un accès à la data en self-service par les métiers »
Par Bertrand Lemaire | Le | Cas d’usage
En s’appuyant sur des technologies comme Talend by Qlik, Snowflake, Microsoft PowerBI ou DataGalaxy, Getlink diffuse les données dans tout le groupe. Morade El Fahsi, head of data du groupe Getlink, explique ici sa stratégie Data as a Service.
Pouvez-vous nous rappeler ce qu’est Getlink ?
Le groupe est surtout connu pour sa principale filiale, Eurotunnel. Celle-ci est concessionnaire de l’infrastructure du tunnel sous la Manche et opère le Schuttle, la navette transportant les véhicules routiers dans ce tunnel. Getlink a trois autres filiales : Eleclink, qui opère des câbles électriques très haute tension pour interconnecter les réseaux électriques français et britanniques, Europort, qui est un opérateur de fret ferroviaire, et enfin le CIFFCO (Centre International de Formation Ferroviaire de la Côte d’Opale.
Comment sont structurés l’IT et la data au sein du groupe Getlink ?
Historiquement, chaque entité avait son propre SI. Avec le plan « One Getlink » de notre nouveau directeur général, l’approche est celle d’un SI et de datas uniques avec un schéma en « pétales de fleur ». L’objectif est que le SI central distribue ses services aux différentes entités, chacune conservant des applications spécifiques liées à son métier.
Nous ne voulons plus réinventer la roue à chaque nouveau projet. Dès que quelque chose a été fait quelque part, il doit pouvoir être réutilisé ailleurs dans le groupe. Et il s’agit surtout de ne plus avoir des consolidations qui reposent sur des envois de fichiers Excel par chaque entité, ce qui implique des risques d’erreurs, des failles de sécurité, etc.
Justement, à quoi correspond votre patrimoine de données ?
Bien entendu, nous avons, comme tout le monde, au niveau corporate, des données finances, RH, etc. Nous avons également, vu notre secteur, des données sur la sécurité et son contrôle (résultats de check-lists avec obligations de conservation durant un certain nombre d’années…).
Et puis, le plus spécifique, c’est la remontée des données de multiples capteurs tant dans l’infrastructure que sur les véhicules : frottements de la roue, tension sur les caténaires… Ces données sont nombreuses et volumineuses.
Nous voulons acculturer tous nos collaborateurs autour de la donnée. Nous avons donc des équipes de data-ambassadeurs qui expliquent notre patrimoine de données, les outils présents et la gouvernance appliquée. Nous avons également formé notre top-management à utiliser les outils de décisionnel. De plus, nous diffusons de courts webinars et des newsletters focalisés sur tel ou tel sujet autour de la data (explications sur les outils, actualités…).
Quelle est l’architecture technique que vous avez choisie ?
Notre Legacy est situé dans nos propres datacenters mais nous avons une migration en cours vers le cloud Azure. Et tout ce qui est nouveau va en principe dans Azure.
Pour collecter toutes les données issues de toutes les sources, des capteurs à l’ERP, nous utilisons l’ESB/ETL de Talend/Qlik. Avec cet outil, nous prenons toutes les données disponibles pour stocker en mode blocs dans Azure. C’est ce stockage qui constitue la base de notre datalake. Les données sont ensuite déposées dans une base Snowflake, toujours sur Azure.
Nous avons fait ce choix afin de nous éviter toute dépendance excessive vis-à-vis de Snowflake. Nous pouvons changer de solution et d’éditeur plus facilement qu’avec une alimentation directe. Et puis cela nous permet aussi d’accéder à la données brute en cas de besoin. Snowflake contient nos datasets.
A partir de là, les utilisateurs avancés peuvent interroger directement la base Snowflake en SQL. Les autres disposent de rapports réalisés soit dans Qlikview soit avec PowerBI. S’ils en sont capables, ils peuvent créer leurs rapports, sinon le département data les réalise pour eux.
Ainsi, nous garantissons que la donnée est toujours disponible. Les métiers n’ont plus à se poser de questions : tout est dans Snowflake.
Un datalake ou des datasets ne font pas tout. Comment gérez-vous l’accès à la donnée ?
En effet, nous voulons un accès à la data en self-service par les métiers. Depuis trois mois, nous avons mené un projet d’amélioration de la gouvernance. Suite à ma rencontre avec DataGalaxy et l’un de ses concurrents sur Républik Data 2022 à Deauville, nous avons créé avec cette solution un annuaire des données avec les règles de gouvernance associées à chaque dataset.
L’IT, la fonction data et les métiers doivent étroitement collaborer. L’IT et nous , nous connaissons la structure des données mais c’est le métier qui doit en être propriétaire. Et il faut que chaque utilisateur métier puisse y accéder de façon sécurisée et en self service.
Quelles suites allez vous donner à ces projets et pour relever quels défis ?
Notre premier défi est le traitement en temps réel des données issues de tous les capteurs. C’est très important pour nous afin d’anticiper tous les incidents et en prévoyant les opérations de maintenance avant tout problème.
De la même façon, le self-data est opérationnel sur les RH et les finances. Mais les datasets « essieux », « ordres de travaux », etc. ne sont pas encore partagés avec la même facilité.
Ensuite, je pense que l’open-data et la mise à disposition des données sur une market-place sera la prochaine étape. D’abord, cette market-place sera interne mais, demain, sans doute l’ouvrira-t-on à l’extérieur (partenaires, fournisseurs…).
Enfin, n’oublions pas un défi courant : trouver les talents dont nous avons besoin. Et, en étant dans le Nord, ce n’est pas forcément simple avec la séduction exercée par la galaxie Mulliez (notamment Décathlon, Auchan…).