Le modèle d’apprentissage automatique détecte la désinformation, est peu coûteux et transparent


  • FrançaisFrançais



  • Un professeur de mathématiques de l’université américaine et son équipe ont créé un modèle statistique qui peut être utilisé pour détecter la désinformation dans les messages sociaux. Le modèle évite également le problème des boîtes noires qui se produisent dans l’apprentissage automatique.

    Avec l’utilisation d’algorithmes et de modèles informatiques, l’apprentissage automatique joue de plus en plus un rôle pour aider à arrêter la propagation de la désinformation, mais un défi majeur pour les scientifiques est la boîte noire de l’inconnaissabilité, où les chercheurs ne comprennent pas comment la machine arrive au même décision que les formateurs humains.

    En utilisant un ensemble de données Twitter avec des tweets de désinformation sur COVID-19, Zois Boukouvalas, professeur adjoint au Département de mathématiques et de statistiques de l’UA, Collège des arts et des sciences, montre comment les modèles statistiques peuvent détecter la désinformation dans les médias sociaux lors d’événements comme une pandémie ou une catastrophe naturelle . Dans une recherche récemment publiée, Boukouvalas et ses collègues, dont l’étudiante de l’UA Caitlin Moroney et la professeure d’informatique Nathalie Japkowicz, montrent également comment les décisions du modèle s’alignent sur celles prises par les humains.

    « Nous aimerions savoir ce qu’une machine pense lorsqu’elle prend des décisions, et comment et pourquoi elle est d’accord avec les humains qui l’ont formée », a déclaré Boukouvalas. « Nous ne voulons pas bloquer le compte de quelqu’un sur les réseaux sociaux parce que le modèle prend une décision biaisée. »

    La méthode de Boukouvalas est un type d’apprentissage automatique utilisant des statistiques. Ce n’est pas un domaine d’étude aussi populaire que l’apprentissage en profondeur, le type complexe et multicouche d’apprentissage automatique et d’intelligence artificielle. Les modèles statistiques sont efficaces et offrent un autre moyen, quelque peu inexploité, de lutter contre la désinformation, a déclaré Boukouvalas.

    Pour un ensemble de test de 112 tweets réels et de désinformation, le modèle a atteint une performance de prédiction élevée et les a classés correctement, avec une précision de près de 90 %. (L’utilisation d’un ensemble de données aussi compact était un moyen efficace de vérifier comment la méthode a détecté les tweets de désinformation.)

    « Ce qui est important dans cette découverte, c’est que notre modèle a atteint la précision tout en offrant une transparence sur la façon dont il a détecté les tweets qui étaient de la désinformation », a ajouté Boukouvalas. « Les méthodes d’apprentissage en profondeur ne peuvent pas atteindre ce type de précision avec transparence. »

    Avant de tester le modèle sur l’ensemble de données, les chercheurs se sont d’abord préparés à former le modèle. Les modèles ne sont aussi bons que les informations que les humains fournissent. Des préjugés humains sont introduits (l’une des raisons des préjugés dans la technologie de reconnaissance faciale) et des boîtes noires sont créées.

    Les chercheurs ont soigneusement étiqueté les tweets comme désinformation ou réels, et ils ont utilisé un ensemble de règles prédéfinies sur le langage utilisé dans la désinformation pour guider leurs choix. Ils ont également pris en compte les nuances du langage humain et les caractéristiques linguistiques liées à la désinformation, comme un message qui utilise davantage les noms propres, la ponctuation et les caractères spéciaux. Une sociolinguiste, la professeure Christine Mallinson de l’Université du Maryland dans le comté de Baltimore, a identifié les tweets pour les styles d’écriture associés à la désinformation, aux préjugés et aux sources moins fiables dans les médias d’information. Ensuite, il était temps de former le modèle.

    « Une fois que nous avons ajouté ces entrées dans le modèle, il essaie de comprendre les facteurs sous-jacents qui conduisent à la séparation des bonnes et des mauvaises informations », a déclaré Japkowicz. « C’est apprendre le contexte et comment les mots interagissent. »

    Par exemple, deux des tweets de l’ensemble de données contiennent « soupe de chauve-souris » et « covid » ensemble. Les tweets ont été qualifiés de désinformation par les chercheurs et le modèle les a identifiés comme tels. Le modèle a identifié les tweets comme ayant un discours de haine, un langage hyperbolique et un langage fortement émotionnel, tous associés à la désinformation. Cela suggère que le modèle a distingué dans chacun de ces tweets la décision humaine derrière l’étiquetage, et qu’il a respecté les règles des chercheurs.

    Les prochaines étapes consistent à améliorer l’interface utilisateur du modèle, ainsi qu’à améliorer le modèle afin qu’il puisse détecter les messages sociaux de désinformation qui incluent des images ou d’autres multimédias. Le modèle statistique devra apprendre comment une variété d’éléments dans les messages sociaux interagissent pour créer de la désinformation. Dans sa forme actuelle, le modèle pourrait être mieux utilisé par les spécialistes des sciences sociales ou d’autres personnes qui recherchent des moyens de détecter la désinformation.

    Malgré les progrès de l’apprentissage automatique pour aider à lutter contre la désinformation, Boukouvalas et Japkowicz ont convenu que l’intelligence humaine et la culture de l’information restent la première ligne de défense pour arrêter la propagation de la désinformation.

    « Grâce à notre travail, nous concevons des outils basés sur l’apprentissage automatique pour alerter et éduquer le public afin d’éliminer la désinformation, mais nous croyons fermement que les humains doivent jouer un rôle actif pour ne pas propager la désinformation en premier lieu », a déclaré Boukouvalas.

    Source de l’histoire :

    Matériaux fourni par Université Americaine. Original écrit par Rebecca Basu. Remarque : Le contenu peut être modifié pour le style et la longueur.

    N'oubliez pas de voter pour cet article !
    1 étoile2 étoiles3 étoiles4 étoiles5 étoiles (No Ratings Yet)
    Loading...
    mm

    La Rédaction

    L'équipe rédactionnelle

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.