Un nouveau système peut apprendre à un groupe d’agents d’IA coopératifs ou compétitifs à trouver une solution optimale à long terme

par Houssen Moshinaly · 3 décembre 2022

Suivez-nous sur notre page Facebook et notre canal Telegram

Imaginez deux équipes qui s’affrontent sur un terrain de football. Les joueurs peuvent coopérer pour atteindre un objectif et rivaliser avec d’autres joueurs ayant des intérêts contradictoires. C’est comme ça que le jeu fonctionne.

Créer des agents d’intelligence artificielle capables d’apprendre à rivaliser et à coopérer aussi efficacement que les humains reste un problème épineux. Un défi clé est de permettre aux agents d’IA d’anticiper les comportements futurs d’autres agents lorsqu’ils apprennent tous simultanément.

En raison de la complexité de ce problème, les approches actuelles ont tendance à être myopes ; les agents ne peuvent que deviner les prochains mouvements de leurs coéquipiers ou concurrents, ce qui entraîne de mauvaises performances à long terme.

Des chercheurs du MIT, du MIT-IBM Watson AI Lab et d’ailleurs ont développé une nouvelle approche qui donne aux agents d’IA une perspective prévoyante. Leur cadre d’apprentissage automatique permet aux agents d’IA coopératifs ou compétitifs de considérer ce que les autres agents feront à mesure que le temps approche de l’infini, et pas seulement sur quelques étapes suivantes. Les agents adaptent alors leurs comportements en conséquence pour influencer les comportements futurs des autres agents et arriver à une solution optimale à long terme.

Ce cadre pourrait être utilisé par un groupe de drones autonomes travaillant ensemble pour retrouver un randonneur perdu dans une forêt épaisse, ou par des voitures autonomes qui s’efforcent d’assurer la sécurité des passagers en anticipant les mouvements futurs d’autres véhicules circulant sur une autoroute très fréquentée.

“Lorsque les agents d’IA coopèrent ou se font concurrence, ce qui compte le plus, c’est lorsque leurs comportements convergent à un moment donné dans le futur. Il y a beaucoup de comportements transitoires en cours de route qui n’ont pas beaucoup d’importance à long terme. Atteindre ce comportement convergé est ce qui nous intéresse vraiment, et nous avons maintenant un moyen mathématique d’y parvenir », déclare Dong-Ki Kim, étudiant diplômé au Laboratoire des systèmes d’information et de décision (LIDS) du MIT et auteur principal d’un article décrivant ce cadre.

L’auteur principal est Jonathan P. How, professeur d’aéronautique et d’astronautique Richard C. Maclaurin et membre du MIT-IBM Watson AI Lab. Les co-auteurs incluent d’autres personnes du MIT-IBM Watson AI Lab, d’IBM Research, de l’Institut d’intelligence artificielle Mila-Québec et de l’Université d’Oxford. La recherche sera présentée à la conférence sur les systèmes de traitement de l’information neuronale.

Plus d’agents, plus de problèmes

Les chercheurs se sont concentrés sur un problème connu sous le nom d’apprentissage par renforcement multi-agents. L’apprentissage par renforcement est une forme d’apprentissage automatique dans laquelle un agent d’intelligence artificielle apprend par essais et erreurs. Les chercheurs donnent à l’agent une récompense pour les “bons” comportements qui l’aident à atteindre un objectif. L’agent adapte son comportement pour maximiser cette récompense jusqu’à ce qu’il devienne finalement un expert dans une tâche.

Mais lorsque de nombreux agents coopératifs ou concurrents apprennent simultanément, les choses deviennent de plus en plus complexes. Au fur et à mesure que les agents envisagent davantage d’étapes futures de leurs collègues agents et comment leur propre comportement influence les autres, le problème nécessite bientôt beaucoup trop de puissance de calcul pour être résolu efficacement. C’est pourquoi d’autres approches ne se concentrent que sur le court terme.

“Les IA veulent vraiment penser à la fin du jeu, mais elles ne savent pas quand le jeu se terminera. Elles doivent réfléchir à la façon de continuer à adapter leur comportement à l’infini afin de pouvoir gagner à un moment lointain dans le futur. . Notre article propose essentiellement un nouvel objectif qui permet à une IA de penser à l’infini », explique Kim.

Mais comme il est impossible de brancher l’infini dans un algorithme, les chercheurs ont conçu leur système pour que les agents se concentrent sur un point futur où leur comportement convergera avec celui des autres agents, appelé équilibre. Un point d’équilibre détermine la performance à long terme des agents, et plusieurs équilibres peuvent exister dans un scénario multi-agents. Par conséquent, un agent efficace influence activement les comportements futurs des autres agents de telle manière qu’ils atteignent un équilibre souhaitable du point de vue de l’agent. Si tous les agents s’influencent mutuellement, ils convergent vers un concept général que les chercheurs appellent un « équilibre actif ».

Le cadre d’apprentissage automatique qu’ils ont développé, connu sous le nom de FURTHER (qui signifie FUlly Reinforcing acTive influence with averagE Reward), permet aux agents d’apprendre à adapter leurs comportements lorsqu’ils interagissent avec d’autres agents pour atteindre cet équilibre actif.

FURTHER le fait à l’aide de deux modules d’apprentissage automatique. Le premier, un module d’inférence, permet à un agent de deviner les comportements futurs d’autres agents et les algorithmes d’apprentissage qu’ils utilisent, en se basant uniquement sur leurs actions antérieures.

Ces informations sont introduites dans le module d’apprentissage par renforcement, que l’agent utilise pour adapter son comportement et influencer les autres agents de manière à maximiser sa récompense.

“Le défi consistait à penser à l’infini. Nous avons dû utiliser de nombreux outils mathématiques différents pour permettre cela, et faire des hypothèses pour que cela fonctionne dans la pratique”, explique Kim.

Gagner sur le long terme

Ils ont testé leur approche par rapport à d’autres cadres d’apprentissage par renforcement multi-agents dans plusieurs scénarios différents, notamment une paire de robots combattant à la manière d’un sumo et une bataille opposant deux équipes de 25 agents. Dans les deux cas, les agents IA utilisant FURTHER ont remporté les jeux plus souvent.

Étant donné que leur approche est décentralisée, ce qui signifie que les agents apprennent à gagner les jeux de manière indépendante, elle est également plus évolutive que d’autres méthodes qui nécessitent un ordinateur central pour contrôler les agents, explique Kim.

Les chercheurs ont utilisé des jeux pour tester leur approche, mais FURTHER pourrait être utilisé pour résoudre tout type de problème multi-agents. Par exemple, elle pourrait être appliquée par des économistes cherchant à élaborer une politique solide dans des situations où de nombreux droits en interaction ont des comportements et des intérêts qui changent avec le temps.

L’économie est une application que Kim est particulièrement enthousiaste à l’idée d’étudier. Il souhaite également approfondir le concept d’équilibre actif et continuer à améliorer le cadre FURTHER.

Cette recherche est financée, en partie, par le MIT-IBM Watson AI Lab.