Illustration de @vichat_ sur Instagram : Un homme politique s'exprime. Il porte un pins YouTube
Credits image : Victor (@vichat_)
Progress

Étude 04 : De quoi parlent les candidat·es les plus populaires sur YouTube ?

Nous avons compté les mots dans les vidéos de différents candidats pour déterminer les sujets récurrents de leur campagne. Parfois, l'analyse confirme l'intuition.

Cette étude est expérimentale. Elle permet d'ouvrir des perspectives sur le type d'analyses automatisées que peut permettre une plateforme web.

La plateforme YouTube dispose d'une formidable fonctionnalité en termes d'accessibilité : la génération automatique d'un transcript. C'est-à-dire qu'automatiquement, lorsque vous déposez une vidéos sur la plateforme, YouTube tente de générer un fichier de sous-titres associé. Ainsi, une personne malentendante pourrait profiter d'un contenu, même si l'auteur ou l'autrice de ce dernier n'avait pas pu produire de fichier de sous-titres correspondant.  

Si la chaîne à l'origine d'une vidéo active cette fonctionnalité, nous pourrons donc avoir accès au texte de la vidéo. Car, au-delà de produire ce transcript, YouTube le rend accessible via ses API. On peut donc récupérer ce texte pour l'analyser.

L'API est une interface qui peut permettre de récupérer une information de la plateforme web, via une simple ligne de code (on vous l'explique plus en détails dans l’Étude 02).

Nous avons donc décidé de récupérer les sous-titres générés automatiquement par YouTube, pour tenter d'analyser  le discours des candidats, simplement en comptant les mots les plus régulièrement prononcés.

Périmètre de l'étude.

L'analyse du langage est complexe, parce qu'elle s'applique à des données dites "non structurées" : on ne sait pas à l'avance ce qui va être dit. Les possibilités sont presque infinies !

Conséquence de cette difficulté : les transcripts générés automatiquement par YouTube sont souvent imparfaits. La plateforme tente d'interpréter un son pour déterminer ce qu'il signifie. En fonction de l'articulation du candidat ou de la candidate, de son accent, du bruit ambiant et de beaucoup d'autres paramètres, le texte interprété peut présenter des erreurs ou des inconsistances. Notre présente étude s'appuie donc, pour commencer, sur des données partiellement erronées 😅.

Par ailleurs, plus il y a de texte à traiter, plus certains mots deviennent récurrents, par exemple les articles "un", "une", "le", "la", etc. Or, ces mots apportent rarement une indication intéressante sur la nature d'un discours. Il faut donc parvenir à les filtrer, pour tenter de ne conserver que la substantifique moelle d'un texte. Ces mots sont qualifiés de "stop words".

Pour notre étude, nous avons utilisé la librairie Python NLTK (Natural Language Toolkit). Cette librairie dispose d'une liste de "stop words" prédéfinis pour chacune des langues qu'elle sait traiter. Nous nous appuyons sur cette liste de référence, que nous avons complétée de mots additionnels qui nous semblaient apporter peu d'information (vous trouverez ici la liste de ces derniers). Aucun des mots des listes évoquées n’apparaîtra donc dans notre étude.

Par ailleurs, nous avons souhaité nous restreindre à un petit nombre de vidéos, mais qui reste représentatif de la pluralité des opinions politiques. Ainsi, nous nous intéresserons aux vidéos postées sur les chaînes YouTube officielles des candidat·es à la Présidentielle durant le mois de Janvier 2022. Nous ne considérerons, par courant, qu'un·e candidat·e, celui ou celle dont les vidéos ont cumulé le plus de vues, ce mois-là.

  • Extrême droite ou droite radicale : Eric Zemmour avec 12 906 710 vues pour 1 187 minutes de vidéo.
  • Extrême gauche ou gauche radicale : Jean-Luc Mélenchon avec 6 742 574 vues pour 1 437 minutes de vidéo.
  • Divers : Jean Lassale avec 444 778 vues pour 24 minutes de vidéo.
  • Droite : Valérie Pécresse avec 106 450 vues pour 465 minutes de vidéo.
  • Majorité : Emmanuel Macron avec 99 341 vues pour 22 minutes de vidéo.
  • Gauche : Pierre Larrouturou avec 47 033 vues pour 53 minutes de vidéo.
  • Verts : Yannick Jadot avec 20 853 vues pour 757 minutes de vidéo.

1. Eric Zemmour

Sur les 32 vidéos postées par le candidat en Janvier 2022, 5 d'entre elles ne disposaient pas de sous-titres. En tout cas, nos scripts ne sont pas parvenus à les récupérer.

2. Jean-Luc Mélenchon

Sur les 28 vidéos postées par le candidat en Janvier 2022, 6 d'entre elles ne disposaient pas de sous-titres. En tout cas, nos scripts ne sont pas parvenus à les récupérer.

3. Jean Lassalle

Sur les 7 vidéos postées par le candidat en Janvier 2022, 2 d'entre elles ne disposaient pas de sous-titres. En tout cas, nos scripts ne sont pas parvenus à les récupérer.

4. Valérie Pécresse

Sur les 17 vidéos postées par la candidate en Janvier 2022, 2 d'entre elles ne disposaient pas de sous-titres. En tout cas, nos scripts ne sont pas parvenus à les récupérer.

5. Emmanuel Macron

Sur les 5 vidéos postées par le potentiel candidat en Janvier 2022, nous sommes parvenus à récupérer l'ensemble des transcripts.

6. Pierre Larrouturou

Sur les 3 vidéos postées par le candidat en Janvier 2022, nous sommes parvenus à récupérer l'ensemble des transcripts.

7. Yannick Jadot

Sur les 25 vidéos postées par le candidat en Janvier 2022, 2 d'entre elles ne disposaient pas de sous-titres. En tout cas, nos scripts ne sont pas parvenus à les récupérer.

Conclusion

Plus les candidat·es considéré·es postent de contenus, plus il est difficile de tirer des thématiques précises de ces derniers. En effet, les mots de liaison ou les généralités prennent le pas sur les thématiques spécifiques, en termes de nombre d'occurrences des mots. Cependant, les résultats présentés ci-dessus permettent tout de même de dégager quelques thématiques récurrentes : l'immigration pour Eric Zemmour, le prix de la vie pour Jean-Luc Mélenchon, les communes pour Jean Lassale, l'Europe pour Valérie Pécresse, l'endométriose pour Emmanuel Macron, le temps de travail pour Pierre Larrouturou ou encore la campagne pour Yannick Jadot.

L'article suivant vous proposera une synthèse globale des quatre études que nous avons réalisées sur ces données YouTube afin d'imaginer des axes d'amélioration de la pluralité des représentations politiques sur le web.