Un hackathon pour exploiter le gisement de données de la DSN
Par Bertrand Lemaire | Le | Gouvernance
Marielle Chrisment (Directrice d’Etalab, DINUM) et Elisabeth Humbert-Bottin (directrice générale du GIP Modernisation des Déclarations Sociales) présentent ici le Hackathon réalisée autour des données de la DSN (Déclaration Sociale Nominative) en mai 2024. Au-delà de plusieurs cas d’usage qui vont être accompagnés pour être déployés, ce hackathon a permis d’accroître la connaissance de la DSN par les acteurs concernés.
Pouvez-vous nous rappeler ce que sont le GIP-MDS et Etalab ?
Marielle Chrisment : Etalab est un département de la DINUM (Direction interministérielle du numérique). Depuis sa création il y a plus de dix ans, l’objectif d’Etalab est de faciliter et de promouvoir l’ouverture des données et les usages à impact dans l’objectif d’améliorer le quotidien des citoyens ou des agents publics.
Elisabeth Humbert-Bottin : Le GIP-MDS (Groupement d’Intérêt Public Modernisation des Déclarations Sociales) a été créé en 2000 sous l’impulsion du Medef, qui voulait simplifier la vie des entreprises, et à l’initiative de la Direction de la Sécurité Sociale au Ministère des Affaires Sociales, pour mettre en œuvre le portail unifié des déclarations sociales dématérialisées net-entreprises.fr. Nous regroupons une grande variété d’organisations : syndicats de salariés, syndicats patronaux, organismes de protection sociale, experts-comptables…
Nous avons notamment mis en œuvre la DSN (Déclaration Sociale Nominative), aujourd’hui généralisée aussi bien dans le secteur privé que dans le public.
Retrouvez Marielle Chrisment sur Républik Data et IA
Marielle Chrisment sera Grand Témoin sur des ateliers de Républik Data et IA.
Républik Data et IA réunit les chief data officers de grands comptes publics et privé pour deux jours d’intelligence collective au Royal Barrière Deauville, les 24 et 25 juin 2024.
Justement, qu’est-ce que, exactement, cette fameuse DSN (Déclaration Sociale Nominative) ?
Elisabeth Humbert-Bottin : La DSN a constitué un changement de paradigme. L’idée était d’utiliser une seule source de vérité pour toutes les déclarations sociales : la paye des salariés. Les entreprises ne devaient donc plus avoir à ressaisir de données mais juste à retraiter la paye. Régulièrement, d’une année à l’autre, on continue de remplacer des déclarations en ajoutant des destinataires à la DSN. Nous en sommes aujourd’hui à 75 procédures remplacées pour une quarantaine d’organismes. Il existe 300 000 déclarants (employeurs) qui émettent deux millions de DSN chaque mois pour 30 millions de salariés avec 2,7 millions de signalements d’événements (arrêts de travail, fin de contrats…). Pour la seule DSN mensuelle cela représente chaque mois, cela représente neuf milliards de données.
Au départ, il y avait 230 types de données dans une DSN, aujourd’hui 560 possibles (toutes les DSN ne comprennent pas toutes les 560 sortes de données). Dans une DSN de régime général, il y a environ 300 types de données. Il est essentiel de rappeler l’importance de respecter le modèle originel de la DSN : la paie constitue la référence. Parfois, ce sont des données intermédiaires ou issues du SIRH (niveaux de formation…) voire des données comptables qui sont transmises. Le régime des marins est probablement le plus complexe.
Au fur et à mesure des réformes, des données se sont ajoutées. Je veux saluer la DGFiP qui, pour le prélèvement à la source de l’impôt sur le revenu, a bien joué le jeu. Cela n’a pas toujours été le cas avec d’autres partenaires. L’esprit de la normalisation était aussi de normaliser par les usages.
Les usages de la DSN sont multiples par nature. Ainsi, elle permet l’ouverture et le calcul des droits sociaux contributifs (liés à la cotisation payée : maladie, chômage, retraite…) comme assistanciels (liés aux besoins : primes d’activité, allocations logement…). Et elle permet aussi le prélèvement à la source de l’impôt sur le revenu.
Pourquoi avoir organisé un « Hackathon DSN » ?
Marielle Chrisment : Le Hackathon DSN a eu lieu les 14 et 15 mai 2024 et a été co-organisé par Etalab, la Direction du Numérique du Ministère du Travail, de la Santé et des Solidarités, de la mission interministérielle chargée du pilotage du système de collecte et d’utilisation des données sociales (MIDS) et bien entendu le GIP-MDS.
Son origine remonte à la publication d’un rapport de l’IGAS (Inspection générale des affaires sociales) et de l’Inspection générale de l’INSEE en avril 2023. L’une des préconisations formulées était la réalisation d’un hackathon pour mieux exploiter le gisement de données que constitue la DSN. Il s’agissait de faire des essais en vue d’en tirer des cas d’usage pérennes.
Elisabeth Humbert-Bottin : Il s’agissait également de faire découvrir à des acteurs qui ne connaissaient pas vraiment la DSN ce qu’ils pourraient en tirer comme valeur. Pour cela, nous avions prévu une présentation.
Un hackathon sur des données personnelles unitaires non-agrégées, comment est-ce que c’est juridiquement possible et comment cela s’organise-t-il ?
Elisabeth Humbert-Bottin : Déjà, nous avons travaillé sur une copie de la base miroir de la DSN (sous Oracle), DAD-e avec une anonymisation sur les données majeures. On ne travaille jamais directement sur la base qui reçoit les données mais sur cette image.
Marielle Chrisment : Nous avons aussi limité la quantité de données, pour des raisons juridiques mais aussi de performance technique au regard du temps court d’un hackathon. Nous avons ainsi construit une base restreinte à neuf départements sur les cinq dernières années, et sur le périmètre du « haut » de la DSN. Puis nous, que ce soit Etalab ou le GIP-MDS, avons appliqué plusieurs couches d’anonymisation.
En vue de sécuriser ce contexte de réutilisation, nous avons convenu d’un règlement signé individuellement par l’ensemble des participants, qui imposait plusieurs conditions, dont l’effacement des données à l’issue de l’événement. Nous avions également réalisé en amont une analyse d’impact sur la protection des données avec une description détaillée de tout le processus, la cybersécurité, les conditions d’usage et d’effacement, etc. Pour éviter les fuites, les données n’étaient pas disponibles directement, mais devaient faire l’objet d’une interrogation au cas par cas de la base avec traçage des requêtes.
L’événement se déroulait uniquement en présentiel, pièce fermée, avec contrôle individuel des identités. Cela peut paraître très austère, mais c’étaient les conditions nécessaires à cette organisation, et malgré tout l’événement a été très convivial et productif !
En tout, il y a eu deux milliards de lignes, 200 000 requêtes et 11,5 milliards d’enregistrements fournis. Tous les serveurs étaient sur place.
Qui a participé à cet « Hackathon DSN » ?
Elisabeth Humbert-Bottin : Il y avait une centaine de participants d’une grande variété d’acteurs. Je peux ainsi citer la DGEFP (Direction Générale à l’Emploi et à la Formation Professionnelle), la DGAFP (Direction Générale de l’Administration et de la Fonction Publique), des start-ups d’État, Leximpact (service de l’Assemblée Nationale chiffrant l’impact financier des propositions d’amendements), France Travail, des entreprises privées (dont des start-ups, des éditeurs de logiciels et des cabinets d’experts comptables), le GIP Inclusion et le Fonds ETCLD (Expérimentation Territoriale contre le Chômage de Longue Durée), l’association Datacraft (club de datascientists), etc.
Quel était le gain proposé aux gagnants de ce hackathon ?
Marielle Chrisment : Les trois gagnants bénéficient d’un accompagnement personnalisé, technique ou financier d’Etalab.
Le premier cas d’usage primé, intitulé A.P.R.E.S (Aide au Pilotage pour le Réseau Emploi sur le Suivi de parcours), a pour objectif de gérer les parcours d’insertion. Son objectif est simple : garantir le suivi sur la durée de l’efficacité de l’accompagnement des personnes éloignées de l’emploi, y compris après la fin du suivi par le chargé d’insertion.
La Start-up d’État « Dossier Facile », qui était déjà accompagnée par Etalab avec le guichet « Exploitation et valorisation de la donnée » du FTAP (Fonds de transformation de l’action publique), a également été sélectionnée. Plateforme de certification des pièces justificatives d’un dossier de location, le projet est à double sens : il permet, par l’interrogation de la DSN, d’éviter aux candidats à un logement de récupérer et envoyer leurs bulletins de paie, et pour les propriétaires, une garantie de l’exactitude des rémunérations du travail par une information récupérée à la source.
Elisabeth Humbert-Bottin : Le troisième gagnant était Senior RH (auparavant nommé SenioRH). En analysant les DSN du personnel des EHPAD, l’objectif est de remonter les signaux faibles de souffrances du personnel (turn-over, taux d’arrêt maladie…). On peut ainsi intervenir et traiter les problèmes qui émergent. Six associations se sont rassemblées pour travailler sur ce sujet.
Au-delà des cas d’usage et même des cas d’usage primés, l’idée, avec le hackathon, est bien de révéler la richesse des données de la DSN et d’amener à constituer des équipes transverses entre organisations participantes.
Marielle Chrisment : Nous avons pu bénéficier d’une équipe de mentors exceptionnelle en provenance du GIP-MDS, de l’URSSAF et de France Travail pour répondre à toutes les questions et bien faire comprendre ce qu’est la DSN.
La veille du Hackathon lui-même, nous avons organisé un webinaire de deux heures pour rappeler aux participants les règles et les modalités de l’opération et avec une présentation par le GIP-MDS du sens des données DSN. Encore en amont, nous avions réalisé des tests techniques, une sorte de « pré-hackathon », pour vérifier si les serveurs étaient suffisamment puissants et répondaient bien aux attentes.
L’enquête de satisfaction, à la fin du hackathon, a eu des résultats très positifs tant sur la qualité et la richesse des données que sur les modalités techniques ou l’accompagnement. Nous avons en effet obtenu un taux de retour de 50 %, ce qui est exceptionnel, avec 96 % de retours positifs sur l’accompagnement et la mise à disposition des informations par des experts !
Elisabeth Humbert-Bottin : Plusieurs projets pour lesquels des équipes se sont constituées existaient auparavant. Je voudrais citer l’« Index femmes/hommes » : nous avons les données depuis toujours mais, pour l’heure, la loi ne prévoit aucune automatisation, notamment parce qu’il y a des difficultés à s’assurer de la solidité des données à comparer.
Un autre outil candidat est « Le Bon Salaire ». Il s’agit de dire quel est le salaire moyen pour tel type de poste dans telle zone géographique, information utile autant pour les entreprises (proposer la bonne rémunération pour attirer des candidats) que pour les candidats (caler ses prétentions de manière réaliste). Concernant l’aide aux entreprises, un outil ouvre en septembre sur net-entreprises.fr où ce type d’approche est prévue. Il faut éviter les redondances et chercher les complémentarités.
Quelles suites doit-on attendre ?
Marielle Chrisment : Nous poursuivons les échanges avec des porteurs de projets afin de convenir avec eux des meilleures modalités d’accompagnement. Notre objectif est de garantir un déploiement et une utilisation sur le terrain des solutions conçues. Tout sera acté d’ici la fin du mois de juin.
Elisabeth Humbert-Bottin : Les projets que nous voyons sont de plusieurs types : de l’exploitation de données, de l’utilisation d’API déjà en place, des calculs d’indicateurs… Quand on voit un projet de cas d’usage, il faut que l’on analyse les conditions juridiques et techniques. Nous accompagnons les trois gagnants, pour les autres, cela dépendra, une fois que nous aurons un retour d’expérience clair sur l’accompagnement de ces gagnants et sur l’avancée des travaux sur le plan technique et juridique.
L’ambition est que certains projets puissent être prototypés pour une expérimentation d’ici la fin de l’année.
Podcast - La DSN, avant tout une révolution de la donnée
Après avoir présenté le GIP-MDS, Elisabeth Humbert-Bottin, directrice générale de cet organisme, rappelle ce qu’est la DSN (Déclaration Sociale Nominative) et ses apports. Le principe a été de faire de la paie la référence unique des données qui sont ensuite utilisées par tous les organismes sociaux pour calculer les cotisations dues et les droits afférents. Elle explique ensuite les raisons qui ont amené le GIP-MDS à co-organiser un hackathon autour des données de la DSN : d’abord pour faire preuve de pédagogie auprès des acteurs concernés et ensuite pour développer des usages conformes à l’esprit de la DSN.
Podcast - Hackathon DSN : ouvrir en toute sécurité des données sensibles
Marielle Chrisment est directrice d’Etalab, un département de la Direction Interministérielle du Numérique (DINUM) qui vise à promouvoir la circulation, l’ouverture et l’exploitation des données. En mai 2024, Etalab a contribué à l’organisation d’un hackathon autour des données de la DSN (Déclaration Sociale Nominative), notamment en préparant d’une part le jeu de données qui a dû être anonymisé et tronqué, d’autre part les modalités pratiques de l’événement.