Un enfant muni d'une caméra frontale a appris à l'IA comment les bébés apprennent le langage
L'intelligence artificielle a franchi une nouvelle étape : celle de nous aider à comprendre comment les enfants apprennent leur langue maternelle. Voici ce que révèle une étude très intéressante.
Apprentissage des langues chez l'homme et dans l'IA
New York University/Youtube screenshot
L'intelligence artificielle aide de nombreux secteurs à recueillir des informations inédites et à faire de nouvelles découvertes à une vitesse incroyablement rapide par rapport au passé. Une étude menée à l'Université de New York a montré comment l'IA a réussi à apprendre une langue à travers une caméra positionnée sur un casque porté par un enfant de 18 mois, Sam. Ce système a permis d'aider les chercheurs à comprendre comment les humains apprennent une langue, a expliqué le co-auteur de l'étude Wai Keen Vong. "Comment les jeunes enfants apprennent-ils à associer de nouveaux mots à des objets spécifiques ou à des concepts représentés visuellement ? Cette question, largement débattue dans l'acquisition précoce du langage, a traditionnellement été examinée en laboratoire, ce qui limite la généralisation à des situations réelles", lit-on dans l'étude.
De six à neuf mois, les enfants commencent à apprendre leurs premiers mots, en les associant aux objets qu'ils voient visuellement. Vers deux ans, ils peuvent reconnaître environ trois cents mots, atteignant mille vers quatre ans. L'intelligence artificielle a été capable d'apprendre simplement en faisant des associations entre les mots et les images qu'elle voyait se connecter, sans aucune programmation préalable de connaissances linguistiques. Cela semble contredire les théories cognitives selon lesquelles les êtres humains ont besoin d'une connaissance innée du fonctionnement du langage pour donner un sens à un mot donné.
L'IA observe des scènes de vie à travers le casque porté par l'enfant
New York University/Youtube screenshot
La caméra montée sur le casque porté par Sam, d'Adélaïde, en Australie, a enregistré 61 heures d'activité, recueillant des épisodes de la vie quotidienne de l'enfant de son point de vue. Sam a porté le casque équipé d'une caméra pendant environ une heure, deux jours par semaine, pendant un an et demi, de l'âge de six mois à vingt-cinq mois. Une fois les données collectées, l'équipe a formé son propre modèle d'IA, un réseau neuronal simulant la structure cérébrale, sur les images et les mots vus et entendus par l'enfant. Dans l'ensemble, l'intelligence artificielle a reçu 250 000 mots et leurs images associées, que Sam a observés et entendus lors d'activités telles que manger, jouer et lire.
Le modèle d'IA a utilisé la méthode de l'apprentissage contrastif pour comprendre quelles images sont associées à des mots et lesquelles ne le sont pas, afin de générer des informations à partir desquelles prédire à quels objets correspondent certains termes. Lors du test pour évaluer le modèle, les chercheurs ont demandé à l'intelligence artificielle d'associer un mot à l'une des quatre images proposées : il s'agit du même test utilisé pour évaluer les compétences linguistiques chez les enfants. À ce stade, l'IA a démontré qu'elle pouvait effectuer des associations correctes dans 62% des cas, reconnaissant des mots tels que "balle" et "berceau". Dans certains cas, elle a réussi à associer les termes à des images qui n'avaient pas été montrées par la caméra, comme "chien" et "pomme", avec un succès de 35%.
L'IA peut apprendre le langage à travers les yeux et les oreilles d'un enfant
New York University/Youtube screenshot
Dans le cas où un mot aurait plusieurs associations d'images, comme par exemple "nourriture" ou "jouet", l'apprentissage s'est avéré plus compliqué. Bien que l'étude ait été menée avec des données acquises auprès d'un seul enfant, ce qui pourrait soulever des questions sur son applicabilité générale, les résultats montrent que les enfants, dès leurs premiers jours de vie, peuvent apprendre beaucoup grâce à la création d'associations entre différentes sources sensorielles. Bien sûr, apprendre une langue pour un être humain est plus simple que pour un modèle d'IA : les enfants expérimentent beaucoup plus de choses dans le monde réel, tandis que l'intelligence artificielle est entraînée sur l'association entre les images et les mots écrits, sans aucune interaction empirique. Par exemple, les enfants apprennent presque immédiatement le sens du mot "mains" simplement parce qu'ils les utilisent pour faire beaucoup de choses, comme l'explique Vong : "Les enfants ont leurs mains, ils ont beaucoup d'expérience avec elles. C'est certainement un élément manquant de notre modèle."
En fin de compte, bien que de nombreux modèles d'apprentissage automatique puisent dans une multitude de données pour produire un texte, la recherche a montré que ce processus pourrait être plus simple que prévu. Brenden Lake, professeur associé de psychologie et de science des données à l'Université de New York et auteur principal de l'étude, a déclaré que "les modèles actuels n'ont pas besoin de toutes les entrées nécessaires pour faire des généralisations significatives. Nous avons démontré, pour la première fois, qu'il est possible de former un modèle d'intelligence artificielle à apprendre les mots à travers les yeux et les oreilles d'un seul enfant".
Un autre résultat surprenant, à la fois en ce qui concerne les capacités de l'IA et la compréhension de l'apprentissage du langage humain chez les enfants.