Un modèle d’apprentissage automatique pourrait mieux mesurer les performances des joueurs de baseball

par Houssen Moshinaly · 8 avril 2022

Suivez-nous sur notre page Facebook et notre canal Telegram

Dans le film “Moneyball”, un jeune diplômé en économie et un entraîneur de la Major League Baseball à court d’argent présentent une nouvelle façon d’évaluer la valeur des joueurs de baseball. Leur idée innovante de calculer les données statistiques et les salaires des joueurs a permis aux Oakland A de recruter des talents de qualité négligés par les autres équipes, revitalisant complètement l’équipe sans dépasser le budget.

De nouvelles recherches au Penn State College of Information Sciences and Technology pourraient avoir un impact similaire sur le sport. L’équipe a développé un modèle d’apprentissage automatique qui pourrait mieux mesurer les performances à court et à long terme des joueurs de baseball et des équipes, par rapport aux méthodes d’analyse statistique existantes pour le sport. S’appuyant sur les avancées récentes du traitement du langage naturel et de la vision par ordinateur, leur approche changerait complètement et pourrait améliorer la façon dont l’état d’un jeu et l’impact d’un joueur sur le jeu sont mesurés.

Selon Connor Heaton, doctorant au College of IST, la famille existante de méthodes, connue sous le nom de sabermétrie, repose sur le nombre de fois qu’un joueur ou une équipe réalise un événement discret, comme frapper un double ou un coup de circuit. Cependant, il ne tient pas compte du contexte environnant de chaque action.

“Pensez à un scénario dans lequel un joueur a enregistré un simple lors de sa dernière apparition au marbre”, a déclaré Heaton. “Il aurait pu frapper un dribbleur sur la troisième ligne de base, faire avancer un coureur du premier au deuxième et battre le lancer au premier, ou frapper une balle dans le champ gauche profond et atteindre confortablement la première base, mais n’avait pas la vitesse pour pousser pour un double. Décrire les deux situations comme résultant en “un seul” est exact mais ne raconte pas toute l’histoire.

Le modèle de Heaton apprend à la place la signification des événements dans le jeu en fonction de l’impact qu’ils ont sur le jeu et du contexte dans lequel ils se produisent, puis produit des représentations numériques de l’impact des joueurs sur le jeu en visualisant le jeu comme une séquence d’événements.

“Nous parlons souvent de baseball en termes de ‘ce joueur a réussi deux simples et un double hier’ ou ‘il en a fait un en quatre'”, a déclaré Heaton. “Beaucoup de façons dont nous parlons du jeu résument simplement les événements avec une statistique récapitulative. Notre travail essaie de prendre une image plus holistique du jeu et d’obtenir une description informatique plus nuancée de la façon dont les joueurs impactent le jeu. .”

Dans la nouvelle méthode de Heaton, il exploite les techniques de modélisation séquentielle utilisées dans le traitement du langage naturel pour aider les ordinateurs à apprendre le rôle ou la signification de différents mots. Il a appliqué cette approche pour enseigner à son modèle le rôle ou la signification de différents événements dans un match de baseball – par exemple, lorsqu’un frappeur frappe un simple. Ensuite, il a modélisé le jeu comme une séquence d’événements pour offrir un nouvel aperçu des statistiques existantes.

“L’impact de ce travail est le cadre qui est proposé pour ce que j’aime appeler” interroger le jeu “”, a déclaré Heaton. “Nous le considérons comme une séquence dans tout cet échafaudage informatique pour modéliser un jeu.”

La sortie du modèle peut décrire efficacement l’influence d’un joueur sur le jeu à court terme, ou sa forme. Affichés sous forme de vecteurs à 64 éléments – obtenus en adaptant le travail de la vision par ordinateur – ces incorporations de formes capturent l’influence d’un joueur dans le jeu et peuvent être utilisées efficacement pour décrire leur impact à court terme, comme la durée de 15 apparitions de plaques, ou en moyenne ensemble pour analyser des périodes plus longues, comme au cours de la carrière du joueur. De plus, lorsqu’elles sont combinées avec la sabermétrie traditionnelle, les incorporations de formulaires peuvent prédire le gagnant d’un jeu avec une précision de plus de 59 %.

Heaton a décrit comment les plongements créés à la fois par sa méthode et la méthode sabermétrique traditionnelle tracent les mêmes données. Lorsqu’elles sont vues au fil du temps, les représentations basées sur la sabermétrie de l’impact des joueurs peuvent être quelque peu sporadiques, changeant considérablement d’un jeu à l’autre. La méthode de Heaton aide à “lisser” la façon dont les joueurs sont décrits au fil du temps, tout en permettant une fluctuation des performances des joueurs.

“Les deux intégrations peuvent aider à différencier les bons joueurs des mauvais joueurs”, a déclaré Heaton. “Mais le nôtre fournit beaucoup plus de nuances sur la manière exacte dont les bons joueurs impactent le jeu.”

Pour former leur modèle, les chercheurs ont utilisé des données précédemment collectées à partir de systèmes installés dans les stades des ligues majeures qui suivent des informations détaillées sur chaque lancer lancé, telles que le positionnement du joueur sur le terrain, l’occupation de la base, la vitesse et la rotation du terrain. Ils se sont concentrés sur deux types de données : les données pas par pas, pour analyser des informations telles que le type de pas et l’angle de lancement ; et des données saison par saison, pour enquêter sur des informations spécifiques à la position telles que les marches et les coups sûrs par manche lancée pour les lanceurs et le pourcentage de base plus slugging pour les frappeurs.

Chaque terrain dans l’ensemble de données collecté a trois caractéristiques d’identification : le jeu dans lequel il a eu lieu, le numéro au bâton dans le jeu et le numéro de terrain dans le bâton. En utilisant ces trois informations, les chercheurs ont pu reconstituer complètement la séquence d’événements qui constituent un jeu MLB.

Les chercheurs ont ensuite identifié 325 changements de jeu possibles qui pourraient se produire lorsqu’un lancer est lancé, tels que des changements dans le nombre de coups de balle et l’occupation de la base. Ils ont combiné ces informations avec les données pas à pas existantes qui décrivent le pas lancé et l’action au bâton, puis ont saisi les enregistrements des joueurs à partir de sabermetrics pour pouvoir décrire ce qui s’est passé, comment cela s’est passé et qui a été impliqué dans chaque jeu.

Le travail mélange l’orientation de recherche de Heaton sur le traitement du langage naturel avec son intérêt pour l’analyse statistique historique du baseball.

“Il y a tout cet écosystème construit autour de la modélisation du langage et de la séquence de mots”, a déclaré Heaton. “Il semble qu’il y avait un potentiel pour qu’il soit adopté pour modéliser des séquences d’autres choses ; pour le généraliser un peu. J’ai commencé à penser à l’analyse sportive et il semblait qu’il y avait beaucoup à faire pour améliorer à la fois notre compréhension du jeu et comment le jeu est modélisé informatiquement.”

Les chercheurs espèrent que leur travail servira de point de départ solide vers une nouvelle façon de décrire l’impact des athlètes de baseball et d’autres sports sur le déroulement du jeu.

“Ce travail a le potentiel de faire progresser de manière significative l’état de l’art en matière de sabermétrie”, a déclaré Prasenjit Mitra, professeur de sciences et technologies de l’information et co-auteur de l’article. “Au meilleur de notre connaissance, le nôtre est le premier à capturer et à représenter un état nuancé du jeu et à utiliser ces informations comme contexte pour évaluer les événements individuels qui sont comptés par les statistiques traditionnelles – par exemple, en construisant automatiquement un modèle qui comprend les moments clés et les événements d’embrayage.”

Heaton et Mitra ont présenté leur article, “Utiliser l’apprentissage automatique pour décrire l’impact des joueurs sur le jeu dans la MLB”, était l’un des sept finalistes du concours de documents de recherche 2022 lors de la conférence MIT Sloan Sports Analytics plus tôt ce mois-ci.

Vous trouverez plus d’informations sur le concours, ainsi que des liens vers l’article, son code open source et ses données sur : https://www.sloansportsconference.com/research-paper-competition