Le Machine Learning peut détecter des Tweets publiés en état d'ivresse

Le fait d’envoyer un Tweet à votre ex à une heure du matin après avoir vidé une bouteille de Whisky n’est sans doute pas la meilleure manière pour lancer une réconciliation. Et aujourd’hui, on sait que l’alcool et les tweets ne font pas ménage.


Un algorithme de machine learning permet de détecter les tweets publiés en état d'ivresse

En général, on pardonne aux gens qui tweetent en état d’ivresse. Et parfois, on considère cette pratique comme une marque d’acceptation sociale chez les jeunes. Mais cela a donné une idée à Nabil Hossain et ses collègues de l’université de Rochester. Ils ont créé un algorithme de qui peut détecter des tweets liés à l’. Et ils montrent aussi comment utiliser ces données pour contrôler des activités en état d’ivresse et comment c’est réparti dans la société. Les chercheurs estiment que cette méthode peut avoir un impact considérable sur la manière de traiter les problèmes liés à l’alcoolisme.

Le Machine Learning et Mechanical Turk

Hossain et ses collègues se sont basés sur 2 avancées majeures. La première est d’utiliser un algorithme de machine learning pour détecter des tweets liés à l’alcool et ceux qui sont publiés par des gens qui boivent de l’alcool au moment de la publication. La seconde avancée est d’identifier l’emplacement géographique de l’utilisateur avec une grande précision afin de déterminer s’ils boivent à la maison ou à l’extérieur. L’équipe a commencé à collecter des tweets géomarqués de janvier à juillet 2014 dans les villes de New York et de Monroe qui compte la ville de Rochester. À partir de ces données, ils ont filtré tous les tweets liés qui mentionnaient l’alcool ainsi que les synonymes tels qu’ivre, bière, fête, etc.

Ils ont ensuite utilisé les travailleurs de Mechanical Turk d’Amazon pour analyser les tweets avec plus de détails. Pour chaque , ils ont demandé à 3 Turkers de déterminer si le message se référait à l’alcool ou si l’utilisateur Twitter buvait actuellement de l’alcool. Et finalement, ils ont demandé si le était envoyé en même temps que l’utilisateur était ivre. Ce processus a impliqué environ 11 000 tweets géomarqués. Et ce sont des données suffisantes pour entrainer un algorithme de machine learning pour détecter des tweets en état d’ivresse. Cela a mené les chercheurs à la prochaine question : Où se trouvaient les gens quand ils tweetaient à propos d’alcool, notamment s’ils se trouvaient à la maison.

Les chercheurs ont développé plusieurs méthodes pour identifier l’emplacement géographique à partir de leurs tweets géomarqués. Cela inclut les endroits préférés des utilisateurs pour tweeter, la place du dernier tweet envoyé la veille ou le tweet publié entre 1 heure et 6 heures du matin. Mais toutes ces méthodes ont des faiblesses ce qui réduit leur fiabilité.

Hossain et ses collègues ont donc développé une autre approche. Ils ont créé une liste de mots et de phrases que les gens utilisent lorsqu’ils tweetent de leur maison telle que Finalement à la maison, ou Bain, Sofa, TV, etc. Ils ont filtré les tweets géomarqués avec ces mots et ils ont demandé à 3 Turkers s’ils pensaient que chaque tweet a été publié depuis la maison. Ils ont gardé uniquement les Tweets où les 3 Turkers avaient répondu oui.

Hossain et ses collègues ont transformé ces tweets en données et ils les ont utilisés pour entrainer un second algorithme de machine learning pour identifier d’autres patterns associés avec des tweets liés à la maison. L’algorithme cherchait si l’emplacement de la maison correspondait avec d’autres indicateurs tels que l’emplacement du dernier tweet de la journée, la localisation la plus populaire des tweets et le pourcentage de tweets provenant d’une localisation donnée, etc.

Des patterns intéressants et précis sur la consommation d’alcool

Cette méthode de fourmi a permis d’améliorer la précision de la localisation comparée à d’autres méthodes se basant sur un seul indicateur. En effet, Hossain a déclaré qu’ils ont identifié une localisation à une distance de 100 mètres avec une précision de 80 %. Combinées, ces 2 techniques ont permis à l’équipe d’identifier le moment et l’endroit où les personnes étaient ivres. Et ils l’ont utilisé pour comparer les Patterns de beuverie à New York City et la banlieue de Monroe. Ils l’ont fait en divisant chaque zone en des grilles de 100 x 100 et en marquant ces zones où des tweets étaient associés avec l’alcool. Cela a permis de créer des cartes de chaleur (Heat Map) de l’état d’ivresse dans chaque zone. Ils ont également pu différencier les beuveries à la maison ou à l’extérieur. Et ils également pu identifier les points de vente d’alcool dans chaque zone. Cela a permis aux chercheurs d’analyser la relation entre la densité des tweets publiés en état d’ivresse depuis chaque région et la densité des points de vente d’alcool.

Et les résultats proposent une lecture intéressante. En premier lieu, Hossain et ses collègues pointent une proportion élevée de tweets liés à l’alcool à New York City comparé à Monroe. Une explication possible est que New York est plus peuplé avec plus de magasins d’alcool ainsi que des gens qui socialisent plus. Les données de géolocalisation révèlent aussi une proportion élevée de gens qui boivent à la maison (ou à une distance de 100 mètres) à New York qu’à Monroe où une majorité des gens boivent à 1 kilomètre de leur maison. La carte thermique révèle aussi des patterns intéressants. Elle a permis à l’équipe de cartographier avec des grilles de 100 x 100 où on a eu 5 tweets liés à l’alcool. Nous pensons que ces grilles sont des régions caractérisées par des activités de beuverie anormalement élevées.

Ils ont aussi trouvé un lien entre la densité des magasins d’alcool et le nombre de tweets qui indiquent qu’une personne est en train de boire. Cela soulève la question intéressante sur la causalité et l’effet. Est-ce qu’une grande quantité de magasins d’alcool incitent les gens à boire plus ? Mais le grand avantage de cette technique est qu’elle est abordable et rapide. On devrait dépenser beaucoup d’argent et de temps si on devait utiliser des techniques conventionnelles pour avoir des Patterns similaires. Il faudrait que les gens remplissent des questionnaires, qu’ils soient honnêtes, etc. Avec le Machine Learning, on a une analyse en temps réel et cela démontre que des informations aussi courtes que des tweets peuvent donner des informations très précises et très détaillées.

Certes, il y a des inconvénients. La carte thermique révèle des biais considérables pour les jeunes et les minorités, mais on a les mêmes biais dans d’autres techniques pour collecter les données. Dans le futur, Hossain et ses collègues veulent utiliser cet algorithme de Machine Learning pour voir si la consommation d’alcool varie avec l’âge, le sexe, l’origine ethnique, etc. L’aspect social de Twitter est aussi très pratique. On peut explorer le réseau social des buveurs pour déterminer comment les interactions sociales et la pression des pairs influencent la tendance à parler de ses prouesses de beuverie. Cela permettra d’informer sur les débats liés à la santé concernant l’abus d’alcool. Les différents impacts de l’abus d’alcool représentent la 3e cause de morts aux États-Unis. On estime que l’alcool provoque 75 000 morts chaque année ce qui souligne l’importance de ce type de recherche pour comprendre le comportement et la motivation de la consommation de l’alcool.

Source : Arxiv

N'oubliez pas de voter pour cet article !
1 étoile2 étoiles3 étoiles4 étoiles5 étoiles (No Ratings Yet)
Loading...
mm

Jacqueline Charpentier

Ayant fait une formation en chimie, il est normal que je me sois retrouvée dans une entreprise d'emballage. Désormais, je publie sur des médias, des blogs et des magazines pour vulgariser l'actualité scientifique et celle de la santé.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *