Jean-Séverin Lair (INSEE) : « la sûreté des données fait partie de notre culture »
Par Bertrand Lemaire | Le | Gouvernance
L’INSEE (Institut national de la statistique et des études économiques) a comme métier de travailler sur les données. Évidemment, le rôle de la DSI en est directement impacté. Jean-Séverin Lair, DSI de l’INSEE, revient ici sur sa stratégie et les réalisations menées, notamment l’usage de ChatGPT pour aider à la conversion de programmes SAS en R.
Pouvez-vous nous présenter l’INSEE ?
Fondée en 1946, l’Institut national de la statistique et des études économiques est une direction du Ministère de l’Économie, des Finances et de la Souveraineté industrielle et numérique. Ses missions sont de produire, d’analyser et de publier des statistiques officielles en France afin d’éclairer le débat public et les différentes institutions. Cela le mène à établir la comptabilité nationale annuelle et trimestrielle ainsi qu’évaluer la démographie nationale et le taux de chômage. Une des tâches qui font notre notoriété est l’organisation et l’exploitation des recensements de la population et la publication des différents chiffres de population de la France. De manière connexe, nous tenons des registres comme le répertoire électoral unique, le répertoire national d’identification des personnes physiques (grâce auquel chacun dispose du numéro d’identification au répertoire souvent appelé improprement « numéro de sécurité sociale ») et celui d’identification des entreprises (SIREN/SIRET).
5000 agents y travaillent, en quasi-totalité sous statut de fonctionnaires (moins de 10 % de contractuels). A la DSI, nous sommes 450. Outre le siège et ses directions centrales (dont la DSI), l’INSEE dispose de directions régionales. Certaines d’entre elles se voient confiées des missions à caractère national, y compris pour la DSI.
L’INSEE a donc comme métier de traiter de la donnée. Du coup, quel est le rôle de la DSI ?
J’ai dit qu’il y a 450 agents à la DSI mais, en fait, 1500 agents de l’INSEE sont capables de programmer.
La DSI est le service qui développe les grandes applications et fournit toutes les plates-formes pour que les statisticiens développent les petits processus ou les petites parties de gros processus qui doivent rester à la main des métiers sans devoir en référer à l’informatique.
Nous gérons aussi l’infrastructure. Nous sommes en train de mettre en place une infrastructure de calcul distribué qui devrait ouvrir à la rentrée à partir de notre solution Onyxia. Pour l’instant, nous utilisons Onyxia sur des infrastructures peu sécurisées et très ouvertes de type cloud, pour des données en open-data. La nouvelle plate-forme, au contraire, visera à traiter toutes nos données à des fins internes et se devra donc d’être totalement sécurisée.
Tout ce que j’ai décrit est dans nos centres de production, hébergés dans des centres d’hébergement interministériels. Il en existe une dizaine en France et nous en utilisons deux : l’un appartient à la Douane, à Rosny-sous-Bois, l’autre au Ministère de l’Agriculture dans la région de Toulouse. Ces hébergements remplacent, depuis fin 2022, nos anciens moyens internes à Metz qui souffraient d’une qualité bien inférieure.
Donc pas de cloud ?
Peu de cloud mais quelques usages, notamment pour garantir la continuité d’activité. Nous avons deux ou trois ans devant nous pour, tranquillement, étudier quelques opportunités à saisir… ou pas. En effet, nous venons de mettre en œuvre nos nouvelles infrastructures.
Lorsqu’il y a des enjeux forts de disponibilité, cela peut être une solution. Par exemple l’accès au répertoire unique électoral (la liste électorale nationale) a bénéficié d’une redondance dans le cloud privé hébergé par la DGFiP au moment des élections présidentielles. Nous pouvons utiliser du cloud public sur des donnés peu sensibles. La diffusion des données issues du recensement est ainsi dans un cloud public chez OVH.
D’un point de vue économique, le cloud n’est pas nécessairement rentable surtout si, comme nous, vous faites du calcul intensif.
Et pour la bureautique, utilisez-vous un produit dans le cloud ?
Notre bureautique est gérée uniquement par nous. Nous avons Libre Office et, pour la messagerie, un Microsoft Outlook connecté à une implémentation locale d’Exchange. D’un point de vue Green-IT, au passage, on peut se poser la question de la pertinence d’envoyer les mails ou nos documents faire le tour de la Terre…
Notre intranet est en SaaS sous Jalios et comprend une implémentation de Collabora (Libre Office On Line) et de OnlyOffice pour l’édition collaborative de documents.
Depuis le Covid, l’usage de la visioconférence est devenu très fort à l’INSEE et n’a pas baissé. Pour cela, nous utilisons Zoom.
Nous avons donc une approche très hybride.
Les statisticiens utilisent quels outils pour leur travail ?
Historiquement, les data-scientists ne manipulaient les données qu’avec SAS sur des serveurs Windows protégés avec déport d’affichage sur leur ordinateur. Il leur est interdit de « sortir » les données pour les mettre sur leurs postes personnels (a fortiori ailleurs).
Avec Onyxia dont je parlais tout à l’heure, l’interface mise en place permettra de mobiliser tous les outils disponibles en quelques clics à partir d’environnements complexes sur Kubernetes comprenant, par exemple, le langage R, du Python, des bases de données MongoDB et PostgreSQL, de l’ElasticSearch, Spark pour le calcul intensif… Tout se fera via des interfaces web, y compris la programmation. Comme nous avons une approche par catalogue de services, le portail pourra s’enrichir facilement à la demande.
Comment gérez-vous la cybersécurité de vos données centralisées ?
Les attaques ont beaucoup évolué ces dernières années. Et nous avons évidemment une très forte pression de nos autorités de tutelle pour accroître la cybersécurité. Nous utilisons des approches très classiques : homologations applicatives, audits de code, audits de pénétration… Bref, toute la panoplie de solutions promues par l’ANSSI.
La Direction du Budget nous a même accordé des postes pour créer un SOC permanent pour lequel nous recrutons actuellement. Aujourd’hui, notre cybersécurité repose trop sur la bonne volonté d’agents conscients de l’importance de la cybersécurité.
Ceci dit, à l’INSEE, la sûreté des données fait partie de notre culture, qu’il s’agisse de la confidentialité, de la préservation ou de la cybersécurité.
Je rappelle à cette occasion qu’il y a une règle absolue : une donnée collectée à des fins statistiques ne peut en aucun cas être utilisée pour des décisions individuelles. Pour le recensement, nous avons parfois des informations plus sincères que d’autres administrations. Et tout le monde est parfaitement conscient de l’importance d’avoir ce thermomètre non-biaisé et le respecte.
L’INSEE peut compter sur des écoles dédiées. Du coup, la question des talents est-elle un sujet chez vous ?
En effet, nous avons une école pour le recrutement dans le corps des administrateurs de l’INSEE (catégorie A+), l’ENSAE, et une pour le corps des attachés de l’INSEE (catégorie A), l’ENSAI. Nos deux écoles sont effectivement une force et de nombreux talents en proviennent. Mais ces profils là ne sont pas forcément suffisants pour l’IT d’où la nécessité de recourir à des contractuels.
N’oublions pas nos agents de catégorie B, recrutés sur concours et formés à Libourne.
Quand on manipule de grandes quantité de données avec des traitements massifs, le Green-IT est-il possible ?
Le plus gros problème est le matériel : 85 % de notre empreinte environnementale est lié à la fabrication de celui-ci, le solde pour l’exploitation. Ce ratio nous a surpris quand nous avons mesuré notre impact. De ce fait, l’axe prioritaire de notre action en matière de Green-IT est la diminution des achats de PC, de mémoire, de disques, etc.
Pour prendre un exemple relativement récent, je benchmarkais deux logiciels de détection de failles. L’un nécessitait 300 Mo de RAM par serveur, l’autre 20. Le premier aurait exigé que l’on rajoute 3 ou 4 To de RAM, ce qui n’aurait pas du tout été « green », le second rien du tout. Comme vous voyez, on peut faire de nombreuses optimisations pour baisser nos achats, notamment pour éviter de racheter de la mémoire, vive ou disque.
Quels sont vos prochains défis ?
Je citerais des défis surtout techniques et méthodologiques. Il s’agit d’abord de la montée en puissance de Kubernetes dans notre SI. De même, nous sommes en train d’adopter la démarche DevOps.
Nous sommes en train de remplacer SAS par le langage R. Fin 2025, il n’y aura plus de SAS chez nous. Pour ce chantier, nous sommes en train de regarder notamment l’usage de ChatGPT pour aider à la conversion de programmes SAS en R. Mais cette IAG commet des erreurs et il faut donc quelqu’un pour le surveiller. Cependant, sur des tâches rébarbatives et répétitives, ChatGPT fait moins d’erreurs qu’un être humain. Avec un code bien fait (ce qui est le cas à l’INSEE bien sûr), le code n’induit aucune donnée statistique et on peut donc le soumettre à ChatGPT sans aucun soucis.
Podcast - INSEE : concilier lourds calculs statistiques et Green-IT
Jean-Séverin Lair, le DSI de l’INSEE, explique ici comment il aborde la question de la limitation de l’empreinte environnementale du numérique. Le propre de cet institut est en effet de réaliser énormément de calculs et de stockage. Une approche Green-IT commence par se poser les bonnes questions afin d’apporter les meilleures réponses.