Comment Stable Code 3B va changer la façon de coder


  • Français

  • Stable Code 3B est le dernier-né des modèles de Stability AI. Ce modèle de 3 milliards de paramètres est capable de compléter du code sur 18 langages de programmation, avec une performance comparable à des modèles plus grands comme CodeLLaMA 7b. Il peut également fonctionner sur des ordinateurs portables même sans GPU.


    Suivez-nous sur notre page Facebook et notre canal Telegram

    Une main cybernétique composé de circuits imprimés pour illustrer l'arrivée de Stable Code 3B

    Un nouveau modèle de langage de grande taille (LLM) vient d’être lancé par Stability AI. Il s’agit de Stable Code 3B, un modèle conçu pour la complétion de code avec de multiples capacités supplémentaires.

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    Stable Code 3B est le successeur de Stable Code Alpha 3B, le premier modèle majeur de la série Stable Code, qui avait été annoncé en 2023. Par rapport à CodeLLaMA 7b, un autre modèle de référence dans le domaine, Stable Code 3B est 60 % plus petit tout en offrant une performance similaire sur différents langages de programmation.

    Il est basé sur le modèle Stable LM 3B, un modèle fondamental pré-entraîné sur 4 trillions de tokens de données en langage naturel, puis affiné sur des données spécifiques au génie logiciel, y compris du code. La taille compacte du modèle lui permet de fonctionner en privé à la périphérie du réseau (edge computing) en temps réel sur des ordinateurs portables modernes, même ceux qui ne disposent pas d’un GPU dédié.

    Stable Code 3B offre plus de fonctionnalités et une meilleure performance sur plusieurs langages, avec des avantages supplémentaires comme le support des capacités de remplissage au milieu (FIM) et l’extension de la taille du contexte. Stable Code en tant que base est entraîné sur des séquences allant jusqu’à 16 384 tokens, mais suit une approche similaire à CodeLlama avec l’implémentation des Rotary Embeddings, permettant éventuellement de modifier la base rotative jusqu’à 1 000 000, ce qui étend la longueur du contexte du modèle jusqu’à 100k tokens.

    Stable Code est entraîné sur 18 langages de programmation (sélectionnés en fonction du sondage StackOverflow Developer Survey de 2023) et démontre une performance de pointe (comparé aux modèles de taille similaire) sur les métriques MultiPL-E sur plusieurs langages de programmation testés.

    Comparaison des performances

    Comparaison côte à côte de la complétion de code stable 3B avec CodeLLama 7B

    Comparaison côte à côte de la complétion de code stable 3B avec CodeLLama 7B

    Détails sur l’entraînement

    Le pipeline d’entraînement consiste en un processus multi-étapes similaire à Codellama. On commence par un LM pré-entraîné sur des données en langage naturel, dans ce cas, StableLM-3B-4e1t, suivi d’un affinage non supervisé sur plusieurs jeux de données liés au code, y compris CommitPack, GitHub Issues, StarCoder et d’autres jeux de données mathématiques.

    Dans la deuxième étape, on affine davantage le modèle avec des séquences plus longues de 16 384 tokens avec la modification de base suggérée dans CodeLLama. Le nouveau modèle stable-code supporte également Flash Attention 2 et est disponible à l’usage.

    Applications commerciales

    Ce modèle est inclus dans le Membership Stability AI qui permet d’utiliser commercialement tous les modèles de Stability, moyennant un abonnement mensuel. Ainsi, pour les développeurs et les PME qui font moins de 1 millions de dollars de chiffres d’affaire, le prix est de 20 dollars par mois.

     

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    Houssen Moshinaly

    Rédacteur en chef d'Actualité Houssenia Writing. Rédacteur web depuis 2009. Blogueur et essayiste, j'ai écrit 9 livres sur différents sujets comme la corruption en science, les singularités technologiques ou encore des fictions. Je propose aujourd'hui des analyses politiques et géopolitiques sur le nouveau monde qui arrive. J'ai une formation de rédaction web et une longue carrière de prolétaire. Pour me contacter personnellement : Whatsapp : +261341854716 Telegram : http://telegram.me/HoussenMoshine Mon compte Facebook Mon compte Twitter

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *