Interprétabilité des LLMs : le rôle des Sparse Autoencoders

Les modèles de langage (LLMs) comme GPT-4 et Claude 3 sont incroyablement performants mais restent des boîtes noires difficiles à déchiffrer. Il est donc logique de vouloir nous demander comment ces modèles parviennent-ils à générer des réponses aussi précises, ou même à avoir des idées créatives ? L'interprétabilité de ces modèles est un enjeu majeur, et une des approches prometteuses pour explorer ces mystères repose sur les "Sparse Autoencoders" (SAEs). Dans cet article, nous vous présentons comment les SAEs permettent de décomposer les modèles de langage (LLMs) en composants interprétables, offrant un aperçu sur le fonctionnement de ces modèles d'intelligence artificielle complexes.

Qu'est-ce qu'un Sparse Autoencoder ?

Pour comprendre comment les SAEs contribuent à l'interprétabilité des LLMs, il est essentiel de comprendre d'abord ce qu'est un autoencoder. Un autoencoder est un réseau neuronal qui apprend à compresser et à décompresser ses entrées. Imaginez simplement un réseau de neurones qui prend un vecteur de 100 dimensions en entrée, le réduit à 50 dimensions, puis le reconstruit en 100 dimensions. L'objectif du modèle est alors de d’apprendre à minimiser la différence entre le vecteur d’entrée et de sortie après reconstruction.

‍

‍

Les Sparse Autoencoders se distinguent en ajoutant une pénalité de "sparsité" à leur fonction de perte (loss), ce qui encourage le modèle à n'activer qu'une petite proportion de ses neurones dans les couches intermédiaires. La pénalité de sparsité pousse donc le modèle à créer un vecteur intermédiaire (activations) ayant le plus grand nombre possible de valeurs nulles. Nous verrons ensuite que cette technique de pénalisation permet d'obtenir une représentation compressée, et donc plus interprétable, des activations intermédiaires d'autres modèles plus grands comme les LLMs.

‍

Schéma explicatif d’un Sparse Autoencoder

‍

Sparse Autoencoders et interprétabilité des LLMs

L’idée derrière l’utilisation des SAEs pour l’interprétabilité des LLMs est de décomposer les activations intermédiaires des LLMs pour les rendre plus faciles à interpréter pour les humains. Les activations d’un modèle de langage sont souvent opaques : chaque neurone peut potentiellement encoder plusieurs concepts à la fois, un phénomène connu sous le nom de superposition. Cette complexité rend difficile de comprendre ce que chaque neurone représente vraiment.

Les SAEs peuvent être entraînés à partir des activations intermédiaires du modèle à différents points de son architecture, souvent entre deux couches. On appelle feature, une composante interprétable des activations produites par l'entraînement d’un SAE entre deux couches d’un LLM. Chaque feature vise à représenter un concept identifiable qui peut être interprété par des humains (par exemple : des concepts sémantiques – "défauts humains" ou "augmentations de prix" – des catégories grammaticales, des thèmes spécifiques).

Pour résumer, l’objectif de l'utilisation des SAEs est d'obtenir une représentation sparse (avec le plus de valeurs nulles possibles), où chaque feature correspond à un concept interprétable. Ces représentations offrent une manière de décomposer les LLMs en éléments plus petits et plus explicites, facilitant ainsi l’interprétation des réponses produites par le modèle.

Comment les Sparse Autoencoders extraient des features des LLMs

Comme expliqué précédemment, l’une des forces des SAEs est leur capacité à extraire des features à partir des activations intermédiaires des LLMs. Le processus d'entraînement d'un SAE permet de transformer ces activations complexes en un ensemble de features interprétables. Voici comment cela fonctionne :

Encodage des activations intermédiaires : un SAE prend comme entrée les activations intermédiaires d'un LLM ; ces activations intermédiaires sont de très grands vecteurs (par exemple 12 288 dimensions pour GPT-3). Le SAE est utilisé pour encoder ce vecteur dans une nouvelle représentation de plus grande dimension, mais qui est largement sparse (ayant un grand nombre de valeurs nulles).

Sparsité et réduction des concepts : ce processus d'encodage impose une contrainte de sparsité. Cela signifie que, bien que la représentation soit de grande dimension, seule une petite partie de neurones sont activés. Par exemple, sur 49 512 dimensions, il se peut que seulement 100 d'entre elles soient non nulles. L'objectif est de décomposer les activations en différents composants où chaque feature soit distinct et plus simple à interpréter.

Apprentissage des features : pendant l'entraînement, le SAE apprend à identifier des combinaisons de neurones qui correspondent à des concepts importants dans le LLM. Le décodeur du SAE est ensuite utilisé pour reconstruire les activations originales à partir de cette version compressée. Chaque feature activée dans la représentation compressée représente un concept bien précis. En simplifiant, chaque feature extraite par le SAE peut être vue comme capturant un aspect particulier et identifiable de l'information traitée par le modèle, ce qui permet de mieux comprendre comment il fonctionne.

Interprétabilité des features : une fois que les features sont extraites, il faut essayer de comprendre ce que chaque feature représente. Par exemple, une feature pourrait correspondre à un concept géographique comme le Golden Gate Bridge ou encore à un thème plus abstrait, comme les clauses relatives dans des phrases. En observant quels types d'entrées activent spécifiquement certaines features, les chercheurs peuvent avoir une meilleure idée de ce que chaque feature capture.

‍

Exemple d’extraction de la feature Golden Gate Bridge

‍

Ce processus, qui permet d'extraire des concepts précis à partir des activations des LLMs, permet aussi d’agir directement sur le comportement du modèle. En appliquant une technique appelée feature steering, il est possible de manipuler directement les activations d'une feature pour orienter les réponses du modèle vers un sujet spécifique. Les chercheurs d'Anthropic ont ainsi démontré qu'en amplifiant artificiellement l'activation de la feature associée au Golden Gate Bridge, ils pouvaient pousser le modèle Claude à intégrer systématiquement des références à ce pont dans ses réponses, même lorsque le sujet n'était pas pertinent. Par exemple, lorsqu'on demandait à Claude de décrire sa forme physique, il répondait : "Je suis le Golden Gate Bridge... ma forme physique est le pont emblématique lui-même".

OpenAI et Anthropic : des résultats prometteurs

Récemment, des efforts notables ont été déployés par des entreprises comme OpenAI et Anthropic pour développer des méthodes pour décomposer les modèles de langage en utilisant des Sparse Autoencoders. OpenAI a réussi à décomposer les activations de GPT-4 en 16 millions de features potentiellement interprétables. Ces features incluent des thèmes comme les “prix en augmentation” ou “l'imperfection humaine”, qui correspondent à des concepts activés au sein du modèle.

Anthropic s'est concentré sur l'extraction de features de Claude 3 Sonnet. Ils ont découvert des features complexes, allant des “signatures de type dans du code informatique” à “des traits de personnalité” ou “des biais culturels”, et même des “traits de comportements abstraits liés à la tromperie ou à la manipulation”. Leur travail souligne que les Sparse Autoencoders sont capables d'extraire des features de très haut niveau, qui permettent non seulement de comprendre comment le modèle réagit à certains types d'entrées, mais aussi de le manipuler, par exemple pour éviter certaines formes de biais ou pour forcer l'apparition de certaines thématiques.

Les limites actuelles et l'avenir de l'interprétabilité

Malgré leurs promesses, les Sparse Autoencoders ont des limites. L'un des principaux problèmes est l'évaluation de l'interprétabilité : comment s'assurer qu'une feature est bien interprétable ou qu'elle correspond à un concept compréhensible pour les humains ? Aujourd'hui, les méthodes d'évaluation reposent encore beaucoup sur une appréciation subjective. Il faut regarder manuellement les activations des features et décider si elles ont un sens. De plus, bien que les SAEs soient capables de décomposer les activations localement, ils ne disent rien sur la manière dont ces features sont utilisées à travers les autres couches du modèle.

Cependant, les perspectives sont encourageantes. Les efforts pour rendre les LLMs plus explicables contribuent à renforcer la confiance en ces modèles, un enjeu crucial pour garantir leur utilisation sûre dans des contextes sensibles. Des améliorations dans l'entraînement des SAEs, notamment par l'augmentation de la taille des décodeurs ou par l'application de nouvelles méthodes de régularisation, pourraient à l'avenir étendre la portée de l'interprétabilité à une plus grande variété de modèles et de cas d'utilisation.

Les dernières avancées

Anthropic a récemment introduit les Sparse Crosscoders, une nouvelle approche qui étend les capacités des Sparse Autoencoders en permettant d’extraire des features interprétables des LLMs sur plusieurs couches en même temps. Contrairement aux méthodes traditionnelles qui analysent chaque couche de manière isolée, les Sparse Crosscoders connectent les activations entre couches et identifient des patterns communs qui persistent au travers du modèle. Cette nouvelle approche permet une interprétation plus claire des mécanismes internes des LLMs. De plus, ils permettent de comparer différentes versions d'entraînement d’une même architecture de modèle, en isolant les features partagées et spécifiques, ce qui est particulièrement utile pour étudier les effets du fine-tuning sur ces modèles. Cette approche prometteuse ouvre la voie à des analyses plus fines de l’évolution des modèles, renforçant la transparence et la sécurité dans le développement de l’IA.

Schéma explicatif de l’approche Sparse Crosscoders

‍

Conclusion

Les Sparse Autoencoders représentent une avancée prometteuse pour ouvrir la boîte noire des LLMs en décomposant leurs activations en composants interprétables. Cette approche est essentielle pour améliorer la compréhension et la confiance envers ces modèles d'IA. Les recherches menées par OpenAI et Anthropic montrent que ces méthodes peuvent s’appliquer à des modèles de plus en plus grands, offrant des aperçus précieux sur leur fonctionnement interne. Récemment, l'introduction des Sparse Crosscoders par Anthropic ouvre de nouvelles perspectives pour l’interprétabilité en permettant d'extraire des features interprétables sur plusieurs couches en même temps. Avec ces avancées, les SAEs et les Sparse Crosscoders jouent un rôle central dans l'amélioration de la fiabilité et de la transparence des LLMs, ouvrant la voie à une IA de confiance et plus accessible pour l'analyse humaine.