Card image

Élections et Big Data: les noms propres dans les articles


Olivier Banville
lundi, 18 juin 2018


Si on cherche à analyser une grande quantité d’articles, il faut d’abord réfléchir et planifier. Qu’est-ce qu’on cherche exactement à extraire, à comprendre?

 

J’ai débuté par expérimenter un peu avec ce que Radio-Canada nous offre sur son site web. Un flux RSS, qui, pour les non-initiés, est un fichier qui contient des liens vers du contenu, dans notre cas des articles, est disponible pour les publications politiques. Ça veut dire que je n’aurai pas à essayer de différencier les articles politiques de ceux économiques ou culturels. Je suppose ici que Rad-Can considère politique tout article qui mentionne des candidats ou le gouvernement. Du moins, avec les élections qui s’en viennent, j’imagine que mon hypothèse sera validée.

 

Le flux RSS semble contenir 15 articles. Est-ce que ce nombre varie ou est-ce que le flux ne propose que les quinze derniers articles politiques en tout temps? Il faudra quelques jours pour cerner le comportement du système, mais en attendant, programmons de la récolte de données.

 

La première étape était de diviser le texte de chaque article en une liste de mots. Ceci m’a permis de retirer les mots que je juge fréquents et peu pertinents à la compréhension. le, les, mais, plus, et une quarantaine d’autres sont donc automatiquement retirés. Le code ignore les majuscules, assurant donc que Le et le sont supprimés, et que Parti et parti soient le même mot.

 

Je peux donc ensuite classer les mots par répétition, et je peux dire que le résultat fut enrichissant. En effaçant les mots trop communs, on peut donc observer qu’en date du 18 juin 2018, dans 15 articles, le mot “Québec” est mentionné 24 fois, tout comme “ministre”. “gouvernement” s’y retrouve 21 fois, et “solidaire” 17 fois. Ce dernier mot frappe pour quelqu’un comme moi qui dit toujours que QS n’est pas si surreprésenté dans les médias! Bon, il faut garder en tête que ce sont les nouvelles de la journée ou de deux jours. Ce genre de truc varie!

 

“Trudeau” est mentionné 8 fois, “Sénat” l’est 7 fois. “États-Unis” n’est mentionné que deux fois, mais c’est peut-être parce que les sujets exclusivement américains se retrouvent dans un autre flux RSS international.

Fait intéressant: “Nadeau-Dubois” est mentionné 7 fois, mais c’est la mention qui me lance dans un projet de détecter les prénoms et noms de famille des gens afin de mieux diviser les mentions.

 

J’en viens avec une simple technique et une supposition:

Si on considère que le nom complet d’une personne sera mentionné au moins une fois dans un article, alors tous deux mots qui se suivent et qui possèdent des minuscules ET des majuscules sont sûrement des noms, et chaque personne citée ou mentionnée risque d’apparaître au moins une fois. En d’autres mots, on suppose que même si un article mentionne vingt fois le “ministre Barette”, son nom complet, “Gaetan Barette” apparaîtra au moins une fois, ce qui permettra de classifier l’article selon le candidat.

 

Et voilà, après un peu de travail, on a maintenant une liste de fréquence de noms, avec quelques erreurs un peu drôles.

On observe que, encore une fois, le 18 juin 2018, avec 15 articles politiques de Radio-Canada, “Gabriel Nadeau-Dubois” est mentionné 6 fois (soit qu’il apparaît dans plusieurs articles, soit que quelqu’un aime bien écrire son nom complet), “Pierre Nantel” 4 fois, “Manon Massé” 3 fois, “Romeo Saganash”, “Justin Trudeau” et “Mélanie Joly” 2 fois, tout comme “Stephen Harper”. Je saute évidemment quelques noms.

 

Mon script n’est pas parfait (et un peu whitewashed dans sa structure), alors, avant de l'améliorer, je vous laisse avec ces perles considérés comme des “Noms”.

“Combattants Canada”

“Québec Si”

“Patrimoine Mélanie”

“Super Hornet”

“Nouveau Parti”

 

“Nadeau-Dubois Toutefois”