
L’idée est séduisante. Confier à une intelligence artificielle l’analyse de dix années de données de santé issues d’une montre connectée, afin d’obtenir une lecture globale de son état physique. C’est l’expérience qu’a menée Geoffrey A. Fowler, chroniqueur technologique au Washington Post, en donnant à OpenAI, via ChatGPT, l’accès à près de 29 millions de pas et six millions de mesures cardiaques enregistrées par son Apple Watch. Le résultat l’a suffisamment inquiété pour qu’il consulte son médecin.
ChatGPT, dans sa nouvelle déclinaison orientée santé, promet d’aider les utilisateurs à mieux comprendre les tendances à long terme de leur condition physique, au-delà des épisodes ponctuels de maladie. Fowler a donc demandé au robot d’évaluer sa santé cardiovasculaire. La réponse a été brutale : une note de F. L’IA estimait son risque suffisamment élevé pour justifier une inquiétude sérieuse.
Son médecin, lui, a livré un verdict radicalement différent. Selon les examens cliniques, Fowler présente un risque cardiovasculaire très faible, au point où des tests supplémentaires ne seraient même pas couverts par son assurance. Le journaliste a également soumis l’analyse à Eric Topol, cardiologue et spécialiste reconnu de la médecine numérique au Scripps Research Institute. Son jugement a été sans détour. Cette évaluation est infondée et l’outil n’est pas prêt à fournir des conseils médicaux.
Le cas illustre le fossé entre les promesses de l’IA en santé et la réalité actuelle des produits déployés. L’analyse de ChatGPT s’est appuyée sur des indicateurs issus de l’écosystème Apple Health, notamment l’estimation du VO2 max, une mesure de la capacité cardiovasculaire. Or, cette valeur calculée par l’Apple Watch n’est qu’une approximation. Des études indépendantes ont montré qu’elle tend à sous-estimer la capacité réelle, parfois de plus de 10 %. Malgré cette limite bien documentée, ChatGPT a traité la donnée comme un signal clinique robuste.
Même constat pour la variabilité de la fréquence cardiaque, un autre indicateur largement mis de l’avant par les montres connectées, mais dont l’interprétation médicale demeure floue hors d’un contexte clinique contrôlé. Pour Eric Topol, s’appuyer sur ce type de métrique pour tirer des conclusions globales sur la santé cardiaque est problématique.
Plus troublant encore, les conclusions de ChatGPT variaient fortement d’une requête à l’autre. En connectant ensuite ses dossiers médicaux complets, Fowler a vu sa note passer de F à D. En reposant la même question quelques jours plus tard, l’IA oscillait entre un B et un F, sans modification majeure des données sous-jacentes. L’outil oubliait parfois des informations de base comme l’âge ou certains résultats récents d’analyses sanguines pourtant disponibles.
Cette instabilité soulève un enjeu central. Une évaluation erratique peut provoquer une anxiété injustifiée chez des personnes en bonne santé, ou à l’inverse rassurer à tort des individus à risque. Pour Topol, ce degré d’imprévisibilité est inacceptable dans un contexte lié à la santé.
Le phénomène ne se limite pas à ChatGPT. Peu après son lancement, Anthropic a introduit Claude pour le secteur de la santé. Testé avec les mêmes données, Claude a attribué à Fowler une note de C, en s’appuyant sur des raisonnements similaires, eux aussi jugés fragiles par des experts. Anthropic affirme toutefois que son outil n’est pas conçu pour fournir des analyses cliniques personnalisées, mais seulement un contexte général.
Les deux entreprises rappellent que leurs robots ne remplacent pas un médecin et qu’ils incluent des avertissements en ce sens. Dans les faits, ils produisent néanmoins des analyses détaillées et des jugements chiffrés qui ressemblent fortement à des évaluations médicales. Apple, de son côté, précise ne pas avoir collaboré directement au développement de ces outils.
Sur le plan de la protection des données, OpenAI assure que les informations de santé importées ne servent pas à l’entraînement des modèles et qu’elles sont isolées et chiffrées. Mais contrairement aux professionnels de la santé, l’entreprise n’est pas soumise aux obligations légales strictes encadrant la confidentialité médicale, notamment aux États-Unis.
Fowler reconnaît toutefois certaines utilités concrètes à ChatGPT Health, comme la visualisation de longues séries de données ou l’analyse de changements de comportement, par exemple l’évolution de son activité physique après la naissance de ses enfants. Là où l’outil échoue, c’est lorsqu’il tente de synthétiser ces données complexes en un diagnostic global.
Pour les experts, le défi est immense. Extraire des conclusions fiables à partir de données bruitées, hétérogènes et issues de dispositifs grand public nécessite des modèles spécialisés, entraînés sur des corrélations validées entre données physiologiques et résultats cliniques réels. Selon Eric Topol, c’est précisément ce qui manque aujourd’hui. L’outil de ChatGPT organise l’information, mais ne possède pas l’architecture scientifique nécessaire pour une interprétation médicale rigoureuse.
OpenAI affirme travailler à améliorer la stabilité et la cohérence de ses réponses avant un déploiement élargi de ChatGPT Health. En attendant, l’expérience relatée par Fowler agit comme un avertissement. Les montres connectées et les robots conversationnels peuvent aider à mieux comprendre ses habitudes, mais dès qu’il s’agit de santé, l’IA reste un outil d’appoint. Le diagnostic, lui, demeure une affaire humaine.
Source : Washington Post
******
Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.
Ou encore…
Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.
En savoir plus sur Mon Carnet
Subscribe to get the latest posts sent to your email.


Un excellent texte qui nous montre les erreurs qu’on peut faire en confiant notre santé à une machine qui n’a pas les outils pour notre santé. Merci beaucoup et bonne soirée