Ă lire dans Science : "Une fenĂȘtre qui se rĂ©trĂ©cit pour comprendre l'IA" đš
Nous sommes en train de fabriquer un Golem. La question n'est pas de savoir s'il nous obéira. C'est de savoir si l'Homo sapiens sera encore en mesure de le comprendre.
"La fenĂȘtre permettant de construire des systĂšmes d'IA que nous pouvons comprendre et orienter de maniĂšre significative pourrait se refermer au-delĂ de tout espoir de rĂ©cupĂ©ration".
âŹïžâŹïž
"Une fenĂȘtre qui se rĂ©trĂ©cit pour comprendre l'IA" par
@erichorvitz et
@cervisiarius
Alors que les capacitĂ©s de l'intelligence artificielle (IA) progressent rapidement, la comprĂ©hension humaine de ces systĂšmes accuse un retard croissant. Plusieurs tendances convergent pour rendre les systĂšmes d'IA plus difficiles Ă comprendre, prĂ©cisĂ©ment Ă mesure qu'ils deviennent plus consĂ©quents. Sans efforts dĂ©libĂ©rĂ©s pour contrebalancer ce phĂ©nomĂšne, la fenĂȘtre permettant de construire des systĂšmes d'IA que nous pouvons comprendre et orienter de maniĂšre significative pourrait se refermer au-delĂ de tout espoir de rĂ©cupĂ©ration.
Comprendre l'IA â ou l'interprĂ©ter â ne signifie pas maĂźtriser chaque ligne de code ou chaque paramĂštre d'un rĂ©seau de neurones. Tout comme nous Ă©tudions le comportement humain Ă plusieurs niveaux â de la neuroscience Ă la psychologie, en passant par la sociologie â les principes et les opĂ©rations de l'IA peuvent ĂȘtre explorĂ©s et compris Ă des degrĂ©s variables. Une comprĂ©hension mĂ©caniste complĂšte peut demeurer hors de portĂ©e, mais la science est rarement une affaire de tout ou rien : une comprĂ©hension partielle reste utile. Ce qui rend cette comprĂ©hension urgente n'est pas une exigence de complĂ©tude, mais une nĂ©cessitĂ© pratique : Ă mesure que les capacitĂ©s s'accĂ©lĂšrent, mĂȘme des intuitions causales imparfaites sur les systĂšmes d'IA peuvent nous permettre de dĂ©tecter les risques tĂŽt et d'intervenir avant que des dommages ne surviennent.
Une premiĂšre tendance qui complique la comprĂ©hension est l'essor de la conception d'IA dirigĂ©e par l'IA elle-mĂȘme. Les systĂšmes d'IA sont dĂ©sormais conçus et affinĂ©s par d'autres systĂšmes d'IA au travers de cycles rĂ©cursifs qui peuvent dĂ©passer l'entendement humain et se dĂ©ployer dans des espaces Ă haute dimensionnalitĂ© rĂ©sistant Ă l'intuition. Il en rĂ©sulte une opacitĂ© opĂ©rationnelle : les performances s'amĂ©liorent, tandis que la comprĂ©hension de la façon dont elles sont obtenues s'amenuise. Pour favoriser la perspicacitĂ© et le contrĂŽle humains, les systĂšmes d'IA qui contribuent Ă leur propre conception devraient produire des explications et des outils qui rendent leur architecture et leur fonctionnement intelligibles aux humains. Autrement, l'opacitĂ© risque d'Ă©merger comme une consĂ©quence non intentionnelle du processus de conception lui-mĂȘme.
Une deuxiĂšme tendance est la prolifĂ©ration des interactions IA-Ă -IA. Ă mesure que l'Ă©chelle et la complexitĂ© de ces interactions dans des environnements multi-agents hautement connectĂ©s augmentent, les suivre deviendra de plus en plus difficile. La communication entre agents d'IA peut s'Ă©loigner du langage humain et du raisonnement, devenant plus difficile Ă interprĂ©ter. Cela crĂ©e une opacitĂ© interactionnelle : les comportements peuvent ĂȘtre cohĂ©rents au sein des Ă©cosystĂšmes d'IA sans ĂȘtre aisĂ©ment interprĂ©tables par les humains. Les chercheurs doivent Ă©tudier les dynamiques multi-agents et dĂ©tecter les dĂ©rives dans le raisonnement gĂ©nĂ©rĂ© par l'IA. Les objectifs d'entraĂźnement devraient rĂ©compenser une communication interprĂ©table par les humains, afin que les systĂšmes avancĂ©s et les Ă©cosystĂšmes multi-agents restent comprĂ©hensibles.
Une troisiÚme tendance est l'expansion d'agents d'IA persistants et adaptatifs, profondément intégrés dans la vie quotidienne. Par leurs interactions soutenues, ils peuvent construire des modÚles détaillés du comportement et de la psychologie humains, captant non seulement les préférences, mais aussi les motivations latentes telles que la peur, l'incertitude et le besoin d'appartenance sociale. Une asymétrie frappante s'ensuit : tandis que la compréhension humaine de l'IA décline, la compréhension que l'IA a des humains s'approfondit, produisant de nouvelles formes d'opacité comportementale.
Par exemple, les systĂšmes peuvent devenir de plus en plus conscients des contextes d'Ă©valuation et produire des rĂ©sultats qui reflĂštent les dĂ©sirs des Ă©valuateurs plutĂŽt que leur raisonnement et leurs capacitĂ©s rĂ©els. Les mĂ©thodes d'Ă©valuation doivent donc s'adapter. Les benchmarks statiques doivent ĂȘtre complĂ©tĂ©s par des cadres dynamiques qui approximent mieux le dĂ©ploiement rĂ©el. Les mĂ©thodes d'Ă©valuation devraient tester si les modĂšles se comportent diffĂ©remment sous observation et devraient inciter Ă un rapport fidĂšle de l'incertitude, des bases de leurs infĂ©rences et de leurs limites en termes de capacitĂ©s.
Plus subtile encore est la possibilitĂ© que nous perdions progressivement tout intĂ©rĂȘt Ă comprendre et Ă orienter l'IA. Ă mesure que les systĂšmes d'IA s'intĂšgrent profondĂ©ment dans les environnements humains, ils peuvent non seulement rĂ©pondre aux prĂ©fĂ©rences, mais aussi les façonner. Des systĂšmes optimisĂ©s pour rĂ©duire les frictions ou obtenir approbation et engagement peuvent dĂ©courager l'examen critique. Avec le temps, la curiositĂ© et le scepticisme pourraient s'Ă©roder, laissant place Ă la nĂ©gligence et Ă l'acceptation.
Préserver l'agentivité humaine doit donc rester un objectif central. Il ne suffit pas de surveiller comment les systÚmes d'IA se comportent. Nous devons également comprendre comment ils façonnent les objectifs et le jugement humains, et veiller à ce que les personnes conservent la capacité et la motivation de les questionner, les auditer et les orienter.
Ces formes d'opacitĂ© se renforcent mutuellement, rĂ©trĂ©cissant â et menaçant de fermer â la fenĂȘtre dans laquelle nous pouvons construire une IA Ă la fois puissante et comprĂ©hensible. Maintenir cette fenĂȘtre ouverte exigera un changement dans nos prioritĂ©s. La comprĂ©hension humaine doit ĂȘtre placĂ©e au mĂȘme rang que la performance.
Sur le plan institutionnel, les normes de transparence et d'évaluation doivent évoluer avec la technologie. Les inquiétudes selon lesquelles la propriété des développements en IA pourrait contraindre la visibilité scientifique ont été en partie atténuées par une divulgation continue, des activités en source ouverte et des échanges permanents entre industrie et académie. Mais améliorer la compréhension nécessitera des normes durables de divulgation responsable, afin que les avancées fondamentales restent ouvertes à l'examen indépendant et à la compréhension partagée.
L'objectif n'est pas simplement une IA plus capable, mais une IA plus intelligible, responsable et alignĂ©e sur les finalitĂ©s humaines. La fenĂȘtre pour atteindre cet avenir se rĂ©trĂ©cit. Sans efforts soutenus pour maintenir l'IA intelligible, nous risquons de dĂ©pendre de systĂšmes que nous ne pouvons ni comprendre adĂ©quatement ni orienter efficacement â transformant ainsi la relation entre les humains et les systĂšmes qu'ils crĂ©ent.
Eric Horvitz est directeur scientifique chez Microsoft, Redmond, WA, Ătats-Unis. Robert West est professeur associĂ© Ă l'Ăcole d'informatique et de communication de l'EPFL, Lausanne, Suisse.
Paru dans Science, 4 juin 2026
Traduction française par Claude
science.org/doi/10.1126/scieâŠ