L’IA est-elle bonne pour votre santé?

Adobe Express sous licence

Par Éric Charton, directeur principal, Recherche et Développement au CRIM

Cela fait plus de dix ans que l’intelligence artificielle (IA) est régulièrement présentée comme un agent de changement pour la pratique médicale. Mais les grands titres qu’on a pu voir sur de prétendues avancées ont souvent débouché sur des applications réelles et controversées, voire dangereuses. Petit tour d’horizon factuel de la grandeur et de la décadence de quelques applications de l’IA en santé.

Pour consulter cette chronique telle que parue initialement dans la revue animée et interactive LES CONNECTEURS :

Notre récit commence en 2016, quand le désormais premier prix Nobel psychologue-Informaticien Geoffrey Hinton, pionnier de l’apprentissage profond, déclare que l’intelligence artificielle rendrait sous quelques années les médecins radiologues inutiles.

Des dizaines d’articles scientifiques se sont faits l’écho de cette extraordinaire nouvelle, au point d’inquiéter les radiologues et de donner des ailes à d’autres. Ainsi, en 2018, Fabrice Brunet, alors PDG du CHUM, annonce, à l’occasion du lancement de son École de l’IA en santé, que les radiologues devront repenser leur rôle, et parle d’optimiser les ressources en dermatologie grâce à l’IA.

Neuf ans plus tard, le monde connaît l’une des plus grandes pénuries de radiologues de son histoire, bien que la plupart des fournisseurs de solutions radiologiques informatiques offrent des modules d’intelligence artificielle.

Pourquoi une telle erreur dans la prédiction? La fiction (ou la futurologie) s’est heurtée à la réalité. Algorithmes d’IA en radiologie il y a, sans aucun doute. Mais ils présentent tous, sans exception, un taux d’erreur plus ou moins important. Ils ne détectent jamais à 100% un cancer du sein ou une absence de cancer des poumons. Peut être dans 90% des cas, peut être 80%. Ils sont intelligents, mais ils se trompent.

« (…) tant qu’un système d’intelligence artificielle de radiologie n’atteindra pas 100% de précision – ce qui n’est pas près d’arriver –, le diagnostic humain sera incontournable. »

Ce qui n’est pas un problème en soi ; le taux d’erreur – les hallucinations de ChatGPT en sont une démonstration – est l’un des éléments constitutifs des modèles d’IA. Un système d’IA se trompe comme un humain. Et quand il doit mener un diagnostic dans un contexte difficile, avec l’image d’un corps humain à chaque fois différent, qui implique un raisonnement poussé, ils se trompe plus qu’un humain.

Des mesures de mitigation doivent donc être mis en place. Dans le cas de la radiologie, la mitigation prend la forme d’une proposition par le système, que le professionnel de santé doit commenter à la lumière de sa propre expérience.

Ainsi, si votre médecin radiologue, dans son compte rendu, vous récite ce que l’IA a vu dans vos organes, sans le mettre en perspective, fuyez! Si, au contraire, il fait preuve de circonspection critique en indiquant que le module d’IA indique une pathologie X à tel endroit, mais qu’après examen, il s’agit d’une erreur, alors il fait un usage raisonné de la capacité supplémentaire que lui offre l’IA. Il s’en sert pour appuyer son diagnostic.

Vous l’aurez compris : tant qu’un système d’intelligence artificielle de radiologie n’atteindra pas 100% de précision – ce qui n’est pas près d’arriver –, le diagnostic humain sera incontournable. On continue donc de former des radiologues (et pas assez), malgré la prédiction de notre Nobel Canadien (qui n’est pas radiologue).

L’IA Watson et le cancer

Clockready Wikimedia (CC BY-SA 3.0)

Autre temps, autre intervenant, autre champ d’exercice de la médecine : milieu des années 2010, la société IBM annonce que son système d’IA Watson for Oncology (le même qui avait quelques mois plus tôt gagné le jeu télévisé « Jeopardy ») va révolutionner le traitement des patients cancéreux. Là encore, des dizaines de publications se font l’écho complaisant des communications d’IBM.

Quelques années plus tard, un article de la revue Stat révèle, en analysant des documents internes d’IBM, que Watson recommande des diagnostics dangereux et erronés de traitement du cancer. En examinant l’utilisation de Watson for Oncology dans des hôpitaux en Corée du Sud, Slovaquie et États-Unis, les experts de Stat découvrent qu’IBM, pressée de positionner son système d’IA pour bénéficier de juteux contrats en santé, a lancé son produit en l’évaluant mal, et sans respecter les processus de revue par les pairs et d’expérimentation sur des patients humains.

« (…) je me souviens de la surprise de mon médecin de famille – j’ai la chance d’en avoir un – quand je lui ai indiqué que je refuserais d’être diagnostiqué par Watson (ou ses équivalents). »

Car, habituellement, une méthode diagnostique et thérapeutique doit être testée avec de longues, coûteuses et fastidieuses études cliniques. Pas ici. Watson, système informatique qui n’entre pas dans les cases habituelles des agences de surveillances de la santé, va être directement appliqué à des cas cliniques. Ce sont les médecins et chercheurs de terrain qui vont alerter IBM quant à ses lacunes, et quelles lacunes!

Au Texas, le Centre de cancer Anderson de Houston collabore avec IBM pour développer son outil de décision clinique en oncologie. Cinq ans et 62 millions de dollars plus tard, le centre laisse expirer son contrat avec IBM. Censé digérer les notes de médecins, les rapports et données sur les patients pour produire un diagnostic, Watson est incapable de produire un résultat exploitable.

À bien y regarder, le diagnostic médical par IA semble plus complexe que les questions du jeu télévisé Jeopardy. Et IBM de découvrir (peut être un peu tard) que les institutions utilisent les termes médicaux de manières différentes. Et malgré les efforts des ingénieurs d’IBM, Watson ne parvient pas à interpréter le langage médical aussi bien que les humains. Ainsi, à l’hôpital M. D. Anderson, Watson n’a pas pu distinguer de manière fiable l’acronyme de la leucémie lymphoblastique aiguë, ALL, de l’abréviation d’allergie, qui est souvent également écrite « ALL ». Selon l’audit de l’hopital, mené par le docteurs Andrew Norden, et les vérifications conduites par le docteur Andrew Seidman, oncologue du Memorial Sloan Kettering Cancer Center de New York, les recommandations de traitement de Watson pendant le projet pilote sur le cancer du poumon étaient en accord avec celles de ses enseignants humains près de 90% du temps. « C’est un niveau de précision très élevé », reconnaît Norden.

Mais une autre médecin, le docteur Abernethy, complète le propos : « Que signifie réellement une précision de 90% ? ». Et d’ajouter : « cela signifie-t-il que pour des scénarios cliniques courants, la technologie s’est trompée 10% du temps? Ou cela signifie-t-il que 10% du temps, Watson n’a pas pu aider dans les cas plus difficiles pour lesquels les décisions de traitement ne sont pas si évidentes? ». Et que faire de ces 10% de diagnostics trompeurs, qui conduisent des patients vers des scénarios thérapeutiques erronées pouvant être fatals?

Question cruciale : jusqu’à quel point l’erreur (taux plutôt élevé de surcroit) diagnostique d’un système d’IA est-elle acceptable? Plus acceptable que celle d’un médecin ? Demander un second, voire un troisième avis en cas de maladie grave, est une pratique courante du patient. Comment s’exerce cette faculté avec un système informatique automatisé?

ChatGPT entre dans la danse

On avait donc – lorsque ChatGPT est entré dans la danse en 2022 – un historique tumultueux de la liaison dangereuse entre IA et diagnostic. Et qui pourtant n’allait pas arrêter nos apprentis sorciers (médecins, pardon…) de remettre le couvert. Imaginez, dans un contexte de pénurie de médecins et de coûts de santé de plus en plus difficiles à supporter, un agent conversationnel automatisé sur-intelligent qui, après quelques questions, peut vous orienter vers le bon traitement ou le bon médecin. Le remède miracle!

Sur le site d’OpenAI, encore aujourd’hui, un fournisseur d’agents (des entreprises qui utilisent les outils d’OpenAI pour créer leur propre service) affirme que ChatGpt peut servir d’assistant médical de diagnostic. Mieux, un article du New York Times de
novembre 2024 prétend, en se basant sur une seule étude très préliminaire, que ChatGPT fait mieux que les médecins pour diagnostiquer les maladies! Diantre, on nous referait donc le coup de la radiologie?

Deux ans après, qu’en pensent les médecins? À nouveau, après l’enthousiasme exagéré et les prétentions déraisonnables, quelques professionnels testent de façon rigoureuse l’agent, et découvre qu’hallucinations ne riment pas avec soins de qualité. Dans une étude, le National Institute of Health affirme sans détour que ChatGPT, sous sa forme actuelle, n’est pas précis en tant qu’outil de diagnostic. ChatGPT ne garantit pas nécessairement l’exactitude des informations, malgré la vaste quantité de données
sur lesquelles il a été entraîné. D’autres études, toutes aussi sérieuses, arriveront à la même conclusion : les grands modèles de langage (« Large Language Models » ou LLM) n’améliorent pas le diagnostic et, donc, ne devraient pas être utilisés dans leur état actuel.

L’IA est-elle dangereuse pour la santé?

À la lumière de ces exemples répétés de mauvais usages de l’IA dans le domaine du diagnostic médical, il ne fait guère de doute que les différentes applications de ces technologies dans le monde de la santé doivent être prises avec d’infinies précautions.

Praticien de l’IA, je me souviens de la surprise de mon médecin de famille – j’ai la chance d’en avoir un – quand je lui ai indiqué que je refuserais d’être diagnostiqué par Watson (ou ses équivalents).

On rappellera que toutes les « expériences » qui viennent d’être décrites ont un point commun : elles sont le produit d’entreprises commerciales qui ont un intérêt financier à aller vite et à s’affranchir des normes de santé contraignantes. Le milieu scientifique est lui contraint par des normes, fixées par des agences de santé, et supervisées par des comités d’éthique, car on ne valide pas une méthode thérapeutique sans précautions.

Quoi en conclure? Que si l’interdisciplinarité est un bienfait – de facto, la création de nouveaux médicaments par les modèles d’IA génératifs est une prouesse très prometteuse –, les informaticiens devraient se garder d’affirmer que des modèles d’IA vont révolutionner les soins de santé. Et de leur côté, les professionnels de santé devraient se garder d’utiliser l’IA sans s’être assurés au préalable du respect de ce qui fait le succès de la médecine moderne, soit la vérification clinique de l’efficacité thérapeutique de la méthode, correctement appliquée aux modèles d’intelligence artificielle.