NESTOR présente

Les romans-photos

de la recherche !

par Jean-François Dars & Anne Papillault

photo André Kertész

L’INTELLIGENCE ARTIFICIELLE DES ONDELETTES / ARTIFICIAL INTELLIGENCE OF WAVELETS

Les ondelettes en disent long

Wavelets speak volumes

Stéphane Mallat
23 Juin, 2024
Tapuscrit...

Stéphane Mallat – Alors on parle beaucoup des performances et des appli­cations spectaculaires de l’intelligence artificielle, mais ce qui m’intéresse, ce sont plutôt les mystères de la thématique qui se cache derrière. L’intelligence artificielle est basée sur des algorithmes d’apprentissage statistique, qui appren­nent à répondre à des questions à partir de données. Par exemple, pour reconnaître si une image est une image de chien ou de chat, eh bien l’algorithme est entraîné sur des algorithmes où l’on connaît la réponse, par exemple des chiens ou des chats, et l’enjeu c’est de pouvoir généraliser. Autrement dit, de pouvoir calculer la bonne réponse pour n’importe quelle nouvelle image. La difficulté principale vient de la malédiction de la grande dimension, en quelque sorte le méchant de l’histoire. La raison, c’est qu’une donnée inclut un grand nombre de variables. Par exemple, une image est formée d’un million de pixels qui sont tous les points de l’image. Ça provoque une explosion combinatoire des possibilités de réponses. Et le mystère, c’est que les réseaux de neurones arrivent pourtant à faire de la reconnaissance d’image et donc à contourner cette malédiction de la dimensionnalité. Le plus étonnant, c’est que les réseaux de neurones très semblables peuvent apprendre à résoudre des problèmes très différents, comme la reconnaissance d’image, jouer au go, synthétiser de la parole, calculer l’énergie quantique d’une molécule, faire un diagnostic médical et ainsi de suite. Ça veut dire que ces problèmes, en apparence très différents, ont pourtant des propriétés similaires, qui permettent d’éviter la malédiction de la dimensionnalité. Et une question qui me fascine, c’est de comprendre la nature mathématique de ces propriétés.

L’organisation hiérarchique de la plupart de ces problèmes semble jouer un rôle fondamental. C’est un peu comme dans le Discours de la méthode de Descartes, on peut alors diviser le problème global en petits problèmes plus simples, que l’on agrège petit à petit pour s’attaquer aux aspects les plus compliqués du problème initial. En physique, cette hiérarchie apparaît dans les interactions à travers les échelles, qui vont des petites particules élémentaires qui interagissent et forment des atomes, qui eux-mêmes vont interagir pour former des molécules, jusqu’aux structures macroscopiques, voire au niveau de la Terre, vous pouvez imaginer, système solaire, ben et ainsi de suite jusqu’au cosmos. Et on s’aperçoit qu’on retrouve le même type d’agrégation hiérarchique dans l’information qui est traitée par les réseaux de neurones, que ce soient des images, des sons, des textes, ou n’importe quel autre type de données.

Alors comprendre comment séparer l’information à travers des échelles est au cœur de la théorie mathématique des ondelettes, sur laquelle j’ai beaucoup travaillé. Alors une ondelette, c’est une petite onde, c’est un peu comme une sinusoïde, mais localisée, bien localisée dans le temps, imaginez une note de musique, et si on prend des ondelettes de tailles différentes dans des positions différentes, on peut reconstruire n’importe quel signal, par exemple une musique ça peut s’écrire avec une partition où on voit des notes de musique, c’est-à-dire des petites ondelettes, sur différentes octaves, à différents instants, avec des rythmes différents. Et la transformée en ondelettes, ce qui est très intéressant d’un point de vue mathématique, c’est que on peut l’utiliser certes pour de la musique, des sons, mais aussi pour des images, pour représenter l’énergie de molécules, pour n’importe quelle fonction mathématique. Ça permet de décom­poser des données à différentes échelles, et on a d’ailleurs eu la surprise de trouver ces ondelettes dans la cochlée des oreilles, et dans le cortex visuel à la fois des animaux et des humains. Elles apparaissent aussi dans les paramètres appris par les réseaux de neurones. Et il semble que c’est en voyageant à travers la hiérarchie des échelles que l’on arrive à apprendre les paramètres qui capturent le mieux l’information.

Pourtant, il nous manque encore un bon cadre mathématique précis pour comprendre la nature de ce voyage en grandes dimensions. Arriver à expliquer les structures de l’information traitées par les réseaux de neurones ou même par notre cerveau est vraiment un problème mathématique extraordinaire, mais très difficile. Et je ne pense pas que cette recherche est une histoire qui va se terminer rapidement.

04 min 28 secMallat_tapuscrit

Transcript...

Stéphane Mallat – We talk a lot about the spectacular performance of artificial intelligence and its application but what interests me is rather the mysteries of the thematises that lies hidden behind. Artificial intelligence is based on statistical learning algorithms that learn to reply to questions relying on data. For example, in order to recognise if an image is a dog or a cat, the algorithm is trained on algorithms that know the answer – be it dogs or cats – and the game is to be able to generalise. In other words, the aim is to calculate a suitable answer no matter what the image. The main difficulty comes from the curse of extra dimensions that in some ways is the scoundrel of our tale. The reason is that a single datum includes a large number of variables. For example, an image is made of a million pixels that are all points on the image. This provokes an explosion of combinations of possible answers. And the mystery is that neural networks manage even so to recognise the image and therefore to step around this curse of dimensionality. Most astonishing is that very similar neural networks can learn to solve very different problems, like the recognition of an image, to play at go, synthesise speech, calculate the quantum energy of a molecule, make a medical diagnosis and so on. That means that these problems which seem so different have nevertheless similar properties that make it possible to evade the curse of dimensionality. And a question that fascinates me is to understand the mathematical nature of these properties.

The organisational hierarchy of the majority of these problems seems to play a fundamental role. It’s a bit like in the Discours de la méthode by Descartes, we can first divide the global problem into little simpler problems then we build up bit by bit in order to attack the more complicated aspects of the initial problem. In physics, this hierarchy appears in interactions at different scales, going from little elementary particles that interact to form atoms which themselves interact to form molecules right up to macroscopic structures such as the Earth then, as you might imagine, the solar system and on up to the cosmos. And we notice that we find the same type of hierarchical aggregation in the information that is handled by neural networks, be they images, sounds, text or no matter what other type of data.

Now an understanding of how to separate information over different scales is at the heart of the mathematical theory of wavelets on which I have spent much effort. A wavelet is a little wave, a bit like a sinusoid but localised, tightly localised in time – think of a note in music. And if we take wavelets of different sizes and in different positions, we can reconstruct any kind of signal, for example a piece of music. We can write it on a score where we see the musical symbols, meaning little wavelets at different octaves, different instants and with different rhythms. And wavelet transform is very interesting from a mathematical point of view because one can indeed use it for music and sounds but also for images, for representing the energy of molecules and for any mathematical function whatsoever. It lets us separate data out over different scales and furthermore we have had the surprise to find these wavelets in the choclea of ears and in the visual cortex of both animals and humans. They appear also in the parameters learnt by neural networks. And it seems that by voyaging across hierarchies of scale, we may learn the parameters which best capture information.

For all this, we still lack a precise mathematical framework for understanding the nature of this voyage through many dimensions. Managing to explain the structures of information handled by neural networks or even by our brain is really an extraordinary mathematical problem but one that is very difficult. And I do not think that this research is a story that will finish quickly.

04 min 28 secMallat_transcript

Chercheur en mathématiques appliquées et spécialiste du traitement du signal, Stéphane Mallat est professeur au Collège de France et à l’École normale supérieure, ainsi que membre de l’Académie des sciences. Ses travaux actuels portent sur l’apprentissage profond, en particulier au Flatiron Institute de New York.

Stéphane Mallat is a French applied mathematician, specialist in signal processing. A member of the French Académie des sciences, he is currently Professor at Collège de France and at the École normale supérieure. His current research focuses on deep learning, particularly at Flatiron Institute (NYC).

Merci comme d’habitude à Adrian Travis pour la traduction.

Our usual thanks to Adrian Travis for the translation.