
Chez OpenAI, la fiabilité des modèles d’intelligence artificielle demeure un enjeu central. Malgré les progrès réalisés avec GPT-5, un phénomène persiste : les « hallucinations ». Par ce terme, on désigne les réponses fausses mais formulées avec assurance par un modèle. Dans un nouveau document de recherche, les chercheurs expliquent que ce biais provient des méthodes actuelles d’entraînement et d’évaluation, qui encouragent le devinement plutôt que la reconnaissance de l’incertitude.
Les hallucinations surviennent, par exemple, lorsqu’un modèle invente la date d’anniversaire ou le sujet de thèse d’un chercheur. Si la réponse est inexacte, elle paraît néanmoins plausible. Cela s’explique par un système d’évaluation qui récompense la justesse sans tenir compte des abstentions. Comme dans un examen à choix multiples, mieux vaut deviner que laisser une case vide. Résultat : les modèles sont incités à « tenter leur chance » au lieu d’admettre qu’ils ne savent pas.
Les chercheurs suggèrent une réforme des barèmes : accorder une pénalité plus forte aux erreurs confiantes et offrir un crédit partiel aux expressions d’incertitude. Une approche déjà appliquée dans certains tests scolaires, qui vise à réduire le poids du hasard dans les résultats. Sans cette révision, les palmarès continueront à privilégier les modèles qui devinent, au détriment de ceux qui font preuve d’humilité.
Sur le plan technique, ces hallucinations découlent de la nature même du pré-entraînement. Les modèles apprennent en prédisant le mot suivant à partir d’immenses volumes de texte. Si les régularités linguistiques comme l’orthographe ou la grammaire sont bien assimilées, les faits rares et arbitraires — par exemple une date précise — échappent aux patterns et génèrent inévitablement des erreurs.
Les conclusions du rapport battent en brèche plusieurs idées reçues. Non, les hallucinations ne disparaîtront pas simplement avec des modèles plus puissants, car certains savoirs sont inaccessibles ou ambigus. Non, elles ne sont pas une anomalie mystérieuse : elles découlent de mécanismes statistiques identifiés. Mais oui, elles peuvent être limitées si les modèles apprennent à reconnaître leurs zones d’ombre.
OpenAI assure que ses derniers modèles réduisent déjà la fréquence de ces erreurs confiantes. L’objectif demeure le même : rapprocher l’intelligence artificielle d’un comportement plus sûr, plus honnête et plus utile, même si cela passe parfois par la réponse la plus sobre qui soit : « Je ne sais pas. »
Source : Open AI
+++
Tous les jours de la semaine, du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.
En savoir plus sur Mon Carnet
Subscribe to get the latest posts sent to your email.

