Analyse d’image : l’IA combat le cancer du sein
Par Bertrand Lemaire | Le | Cas d’usage
Therapixel a créé un service d’aide à la décision par IA dans le cloud destiné à l’analyse de mammographies. Comme il s’agit de données médicales, des précautions particulières doivent être prises. Pour la R&D et l’entraînement de l’IA, un stockage local est requis sur baies full flash Vast Data.
La société Therapixel a été créée en 2013 pour créer un outil de consultation des images par des chirurgiens en bloc opératoire, par l’analyse du regard, afin d’éviter tout usage des mains dans la manipulation d’appareils informatiques non stériles. En saisissant une opportunité à l’occasion d’un concours international, la société s’est lancée dans l’analyse d’images par IA pour détecter les cancers du sein. Ainsi est né le produit Mammoscreen. Les images traitées étant par nature très sensibles, des précautions particulières doivent être prises afin de respecter les obligations légales et déontologiques. L’architecture technique mise en œuvre tient bien sûr compte de ces obligations. « Nous ne prenons bien sûr pas la décision concernant la présence ou l’absence de cancer mais nous aidons à la prise de décision afin d’éviter autant que possible les faux positifs et les biopsies du sein évitables » précise Aurélien Chick, data manager chez Therapixel.
Concrètement, une patiente effectue une mammographie dans un cabinet de radiologie. Il en résulte une image au format DICOM comportant de nombreuses métadonnées médicales. Un serveur-tampon installé dans le cabinet lui-même, en mode edge, va fabriquer un fichier image sans toutes les métadonnées personnelles mais indexé. Cette image nettoyée est envoyée dans le cloud où l’IA de Therapixel est installée. L’IA va alors analyser l’image et cercler les lésions suspectes avec un code couleur pour qualifier les lésions de probablement bénignes, probablement malignes ou à investiguer plus avant. L’image est alors renvoyée vers le serveur edge qui va la réidentifier et y réinscrire les métadonnées personnelles. Une fois l’opération achevée, aucune image n’est archivée dans le cloud et toute trace en est détruite : l’image ne doit demeurer que dans le SI du cabinet de radiologie.
Une architecture technique tenant compte des contraintes légales
Le serveur edge est une simple machine virtuelle installée sur le système informatique du cabinet de radiologie. Aurélien Chick relève : « ce serveur virtuel peut s’installer sur pratiquement toutes les infrastructures car ses besoins sont très limités. » Le choix du cloud provider varie selon les régions. « Si le client est en France, nous n’allons pas utiliser une instance sur un datacenter américain et vice-versa » explique Aurélien Chick. L’IA n’a pas d’architecture très originale : elle est basée sur des scripts en Python, des bibliothèques telles que Tensorflow, etc.
Mais l’IA doit être entraînée et cela n’est pas possible dans le cloud puisque les images ne peuvent y être stockées. La R&D et cet entraînement de l’IA doivent donc être réalisés en local, sur des serveurs dédiés, avec un stockage lui aussi local. Aurélien Chick insiste : « tout projet d’IA a besoin de données d’entraînement, en l’occurrence des mammographies ». Un partenariat avec des cliniques et des cabinets de radiologie permet de récupérer des données désidentifiées pour l’entraînement de l’IA de Therapixel.
Entraînement on premise avec stockage local
« Nous avons besoin d’images régulièrement renouvelées afin de tenir compte des évolutions techniques » précise Aurélien Chick. Les serveurs locaux sont, là aussi, techniquement très classiques : des unités GPU pour le calcul, une installation Linux ordinaire… Mais les masses de données sont considérables : on parle actuellement de 2 Po d’images DICOM, le volume ayant été multiplié par 1000 en quelques mois. Pour d’évidentes raisons de rapidité d’accès, Therapixel a voulu utiliser des baies full flash.
Son choix s’est porté sur Vast Data, un acteur de petite taille. Aurélien Chick s’en explique : « Vast Data est une entreprise récente avec laquelle nous avons ressenti une proximité culturelle et avons apprécié sa souplesse et son support très efficace pour mener de la maintenance corrective et évolutive de qualité. » Plus concrètement, la possibilité de compression par data réduction (sans perte d’information) a été, sur un jeu de données de test, d’un facteur 5, ce qui est d’une plus grande efficacité que toutes les solutions concurrentes et impacte évidemment considérablement le coût de la solution quand on parle de stocker des péta-octets de données.