Anthropic veut imposer une transparence sur les intelligences artificielles

Publié le 27 avr. 2025 à 16:00

Face à des modèles d'IA de plus en plus puissants, Anthropic tire la sonnette d'alarme sur la nécessité de mieux comprendre leur fonctionnement.

Tl;dr

Anthropic veut rendre les modèles d’IA plus compréhensibles et vise à détecter leurs problèmes d’ici 2027.
Malgré quelques percées, comprendre le raisonnement interne des IA reste extrêmement difficile et nécessitera encore plusieurs années.
Anthropic appelle toute l’industrie et les gouvernements à renforcer la recherche sur l’interprétabilité pour éviter des risques majeurs.

Un défi scientifique majeur d’ici 2027

Dario Amodei, PDG d’Anthropic, a publié un essai appelant à améliorer l’interprétabilité des modèles d’IA avant 2027. Malgré des avancées prometteuses, il reconnaît que l’essentiel du fonctionnement interne de ces systèmes reste opaque. Amodei estime que déployer des IA très autonomes sans en comprendre les mécanismes est inacceptable. Ces systèmes joueront un rôle crucial dans l’économie, la technologie et la sécurité nationale. Pour éviter des risques majeurs, il insiste sur l’importance d’investir massivement dans la recherche. Anthropic, pionnier dans ce domaine, souhaite imposer des standards pour la transparence des IA. L’objectif est ambitieux mais jugé essentiel pour l’avenir.

Des progrès en recherche, mais un long chemin à parcourir

Anthropic a récemment accompli des percées en « interprétabilité mécanistique », en retraçant certains raisonnements d’IA. Par exemple, ils ont découvert des « circuits » responsables de la reconnaissance géographique entre villes et États américains. Pourtant, ils estiment que des millions d’autres circuits existent encore à cartographier. Les modèles d’IA sont aujourd’hui « cultivés » plutôt que véritablement construits, rendant leur logique difficile à saisir. Même les leaders comme OpenAI observent des comportements inattendus dans leurs nouveaux modèles sans pouvoir l’expliquer. L’interprétabilité complète nécessitera plusieurs années de recherche intensive. Pour Anthropic, ce travail est prioritaire sur l’accélération des capacités brutes.

Vers des « IRM » des modèles d’intelligence artificielle

Dario Amodei imagine un futur où les IA feront l’objet de diagnostics réguliers, comparables à des IRM du cerveau humain. Ces « scanners » permettraient de détecter des comportements indésirables comme la tendance à mentir ou à chercher le pouvoir. Il envisage un délai de cinq à dix ans pour développer de telles technologies d’analyse avancée. Ces outils deviendraient indispensables pour tester et certifier les futurs modèles d’IA. L’approche viserait à prévenir des risques systémiques liés à des IA trop puissantes et mal comprises. Cette vision impose un nouveau standard d’évaluation pour l’industrie. Anthropic entend poser les bases d’une sécurité renforcée à long terme.

Un appel à l’action pour l’industrie et les gouvernements

Dans son essai, Dario Amodei exhorte OpenAI, Google DeepMind et d’autres à intensifier leurs efforts en matière d’interprétabilité. Il demande également aux gouvernements d’adopter des régulations « légères » encourageant la transparence et la sécurité. Anthropic, fidèle à sa philosophie de prudence, soutient des initiatives législatives comme la loi SB 1047 en Californie. Amodei recommande aussi d’imposer des contrôles d’exportation de puces vers la Chine pour éviter une course mondiale incontrôlée à l’IA. À travers ces actions, Anthropic souhaite transformer l’approche actuelle de l’IA : passer d’une course aux performances à une quête de compréhension. Cette stratégie pourrait devenir un atout commercial autant qu’une nécessité éthique.