AlphaGo Zero, le successeur d’AlphaGo Lee, maitrise le jeu de Go en 3 jours

Houssen Moshinaly

il y a 7 ans

Les chercheurs de DeepMind viennent de créer AlphaGo Zero, une intelligence artificielle qui a battu AlphaGo Lee qui avait battu le champion du monde au jeu de Go. La grande particularité d'AlphaGo Zero est qu'il est devenu meilleur qu'AlphaGo Lee sans aucune intervention humaine à part les règles du jeu.

AlphaGo Zero est la première intelligence artificielle à maitriser le jeu de Go sans aucune intervention humain. Son prédécesseur, AlphaGo Lee, a fait la une des médias quand il a battu le champion du monde dans plusieurs parties à la suite. Mais AlphaGo Lee a dû apprendre des millions de parties par des experts du jeu pour réussir cette prouesse. Cela implique des tonnes de données et des heures à analyser les mouvements des parties.¹

AlphaGo Zero est devenu meilleur qu’AlphaGo Lee en apprenant les règles du jeu. Il a découvert tout seul les meilleurs mouvements et en s’entrainant avec lui-même, il a réussi à écraser littéralement AlphaGo Lee dans 100 parties avec 100 % de victoire. Il a fallu seulement quelques jours à AlphaGo Zero pour passer de l’apprentissage totalement novice à un expert.

C’est à la fois une révolution, mais également des raisons de nuancer l’exploit. Les intelligences artificielles peuvent découvrir de nouvelles maladies, prévoir des séismes, optimiser l’énergie, mais uniquement si elles sont entrainées par des humains qui sont des experts dans ce domaine. La quantité de données en entrée doit être colossale. Mais avec AlphaGo Zero, plus besoin de ce type d’entrée ou d’assistance humaine, on lui fournit simplement les limites autorisées d’un système tel que les règles du jeu et il va se charger du reste.

AlphaGo Zero a utilisé le Reinforcement Learning qui est un apprentissage automatique par des systèmes de sanction et de récompense. Dans chaque tour, AlphaGo Zero pouvait analyser toutes ses parties précédentes pour prévoir une probabilité de résultat, une tactique qui n’était pas totalement implémentée dans AlphaGo Lee (il l’utilisait uniquement pendant les entrainements). AlphaGo Zero peut l’utiliser dans toutes les occasions ce qui lui a donné un avantage certain.

Il a fallu 3 jours et 4,9 millions de parties à AlphaGo Zero pour battre AlphaGo Lee. En comparaison, il avait fallu plusieurs mois à AlphaGo Lee pour arriver au même résultat. De plus, en s’entrainant avec cette nouvelle tactique, AlphaGo Zero a découvert des stratégies du jeu de Go que les humains n’ont pas découvert alors que le jeu existe depuis plus de 2 500 ans. En face d’AlphaGo Zero, un champion du monde humain n’aurait aucune chance et il serait tellement perdu qu’il passerait pour un novice, car l’IA va utiliser des tactiques totalement nouvelles. Toutefois, AlphaGo Zero est une intelligence artificielle idiote, car elle ne sait que jouer au jeu de Go. Pour des problèmes plus sérieux comme la résolution de l’interaction des molécules pour un médicament ou pour réduire les dépenses énergétiques, il faudra beaucoup plus. Le défi sera d’utiliser le Reinforcement Learning pour des tâches plus généralistes.