D'ici à 2026, nous n'aurons plus assez de données pour former l'intelligence artificielle : qu'est-ce que cela signifie ?

par Baptiste

18 Novembre 2023

D'ici à 2026, nous n'aurons plus assez de données pour former l'intelligence artificielle : qu'est-ce que cela signifie ?

L'intelligence artificielle fait désormais partie intégrante de nos vies, d'une manière ou d'une autre. Cependant, la montée en puissance des différentes intelligences artificielles génératives a suscité une certaine inquiétude parmi les chercheurs : les données nécessaires à l'entraînement des intelligences artificielles pourraient s'épuiser plus rapidement que nous ne le pensons. Dans cet article, nous examinerons pourquoi le manque de données pour l'entraînement des intelligences artificielles est un problème, et quelles sont les solutions possibles.

Comment l'intelligence artificielle est-elle formée ?

Comment l'intelligence artificielle est-elle formée ?

Pexels

L'entraînement des algorithmes servant de base aux intelligences artificielles génératives nécessite une grande quantité de données. De plus, il est important que ces données soient de haute qualité afin d'améliorer également la qualité des réponses. À titre d'exemple, ChatGPT a été formé sur 570 gigaoctets de texte, soit environ 300 milliards de mots. Il en va de même pour les algorithmes qui génèrent des images comme DALL-E, formé sur près de 6 milliards de paires texte-image. En résumé : pour avoir des intelligences artificielles vraiment utiles dans la vie de tous les jours, une quantité importante de texte est nécessaire pour les former.

Le problème est que, comme mentionné précédemment, ces données doivent être de haute qualité. Pour comprendre pourquoi, il suffit de se poser une question : voulons-nous vraiment que ChatGPT soit formé sur l'ensemble des publications des médias sociaux que nous voyons chaque jour ? Nous pourrions courir le risque de problèmes tels que celui de Microsoft, qui a obtenu des réponses teintées de racisme d'une IA générative formée sur le contenu de Twitter. Les données doivent donc être de haute qualité, et c'est là que se pose le deuxième problème : il n'y en a pas assez. En fait, selon certains chercheurs, les données de texte de haute qualité pourraient s'épuiser d'ici 2026. Et ensuite ?

L'avenir de l'intelligence artificielle : comment se déroulera l'entraînement ?

L'avenir de l'intelligence artificielle : comment se déroulera l'entraînement ?

Pexels

L'alerte lancée sur la disponibilité des données pour former les intelligences artificielles est actuellement simplement une mise en garde. Les développeurs pourraient optimiser les algorithmes et ainsi créer des IA génératives qui :

  • utilisent mieux les données existantes ;
  • sont capables d'apprendre à partir de moins de données ;
  • réduisent l'empreinte carbone requise.

Cette alternative est cependant pleine de nuances. Une autre option serait de conclure un accord avec les grands éditeurs pour un accès libre des IA aux nouveaux livres et au patrimoine littéraire existant. De cette manière, il serait également possible d'éviter l'utilisation de données d'entraînement sans dédommager les détenteurs des droits d'auteur. Enfin, il existe une solution dont on parle encore peu : former l'intelligence artificielle avec des données synthétiques, c'est-à-dire produites par une intelligence artificielle.

Former l'IA avec des données produites par l'IA : c'est l'avenir

Former l'IA avec des données produites par l'IA : c'est l'avenir

Freepik

Il existe des entreprises qui abordent la pénurie de données de manière "créative", en produisant des données synthétiques pour entraîner l'IA. Certains exemples de cette approche sont Mostly AI et Clearbox AI, qui entraînent des intelligences artificielles avec des données produites par d'autres intelligences artificielles. Il s'agit d'algorithmes basés sur une technologie propriétaire qui représentent des simulations mathématiques de situations réelles. Les données synthétiques préservent la vie privée des individus et réduisent les coûts associés à l'accès aux données sensibles.

D'autre part, les défenseurs des données synthétiques insistent sur le facteur de confidentialité, ainsi que sur la pénurie de données réelles de haute qualité. En utilisant des données créées par l'IA, ces problèmes peuvent être résolus, et les modèles génératifs peuvent être formés, selon les intentions des entreprises. Peut-être reste-t-il un seul dilemme : sur quelles données les IA qui produisent les données avec lesquelles entraîner les IA ont-elles été formées ?