Accélérer le rythme de l’apprentissage automatique —

par Houssen Moshinaly · 19 mai 2022

Suivez-nous sur notre page Facebook et notre canal Telegram

L’apprentissage automatique se produit un peu comme l’érosion.

Les données sont projetées sur un modèle mathématique comme des grains de sable glissant sur un paysage rocheux. Certains de ces grains naviguent simplement avec peu ou pas d’impact. Mais certains d’entre eux font leur marque : tester, durcir et finalement remodeler le paysage selon des modèles et des fluctuations inhérents qui émergent au fil du temps.

Efficace? Oui. Efficace? Pas tellement.

Rick Blum, professeur Robert W. Wieseman de génie électrique et informatique à l’université de Lehigh, cherche à apporter de l’efficacité aux techniques d’apprentissage distribué qui se révèlent cruciales pour l’intelligence artificielle (IA) et l’apprentissage automatique (ML) modernes. Essentiellement, son objectif est de lancer beaucoup moins de grains de données sans dégrader l’impact global.

Dans l’article “Distributed Learning With Sparsified Gradient Differences”, publié dans un numéro spécial du ML consacré au ML Journal IEEE de sujets sélectionnés dans le traitement du signal, Blum et ses collaborateurs proposent l’utilisation de la “méthode de descente de gradient avec sparsification et correction d’erreurs”, ou GD-SEC, pour améliorer l’efficacité des communications de l’apprentissage automatique mené dans une architecture sans fil “travailleur-serveur”. Le numéro a été publié le 17 mai 2022.

“Les problèmes d’optimisation distribuée apparaissent dans divers scénarios qui reposent généralement sur les communications sans fil”, dit-il. “La latence, l’évolutivité et la confidentialité sont des défis fondamentaux.”

“Divers algorithmes d’optimisation distribuée ont été développés pour résoudre ce problème”, poursuit-il, “et l’une des principales méthodes consiste à utiliser le GD classique dans une architecture serveur-travailleur. Dans cet environnement, le serveur central met à jour les paramètres du modèle après avoir agrégé les données reçues de tous les travailleurs, puis retransmet les paramètres mis à jour aux travailleurs. Mais la performance globale est limitée par le fait que chaque travailleur doit transmettre tout de ses données tout du temps. Lors de la formation d’un réseau neuronal profond, cela peut être de l’ordre de 200 Mo à partir de chaque appareil de travail à chaque itération. Cette étape de communication peut facilement devenir un goulot d’étranglement important sur les performances globales, en particulier dans les systèmes d’apprentissage fédéré et d’IA de pointe.”

Grâce à l’utilisation de GD-SEC, explique Blum, les besoins en communication sont considérablement réduits. La technique utilise une approche de compression de données où chaque travailleur définit les composants de gradient de faible amplitude à zéro – l’équivalent du traitement du signal de ne pas transpirer les petites choses. Le worker ne transmet alors au serveur que les composantes non nulles restantes. En d’autres termes, les données significatives et utilisables sont les seuls paquets lancés sur le modèle.

“Les méthodes actuelles créent une situation où chaque travailleur a un coût de calcul élevé ; GD-SEC est relativement bon marché où une seule étape GD est nécessaire à chaque tour”, explique Blum.

Les collaborateurs du professeur Blum sur ce projet incluent son ancien étudiant Yicheng Chen ’19G ’21PhD, maintenant ingénieur logiciel chez LinkedIn; Martin Takác, professeur agrégé à l’Université d’intelligence artificielle Mohamed bin Zayed ; et Brian M. Sadler, membre à vie de l’IEEE, scientifique principal de l’armée américaine pour les systèmes intelligents et membre du laboratoire de recherche de l’armée.

Source de l’histoire :

Matériaux fourni par Université Lehigh. Remarque : Le contenu peut être modifié pour le style et la longueur.