Card image

Lancement de campagne et d'extraction média


Olivier Banville
jeudi, 23 août 2018


La campagne est finalement lancée, et c’est le temps d’analyser les médias pour en tirer les tendances et les comparer aux résultats. Chaque jour, je passerai à travers les grands médias québécois (Radio-Canada, La Presse, Le Devoir et Le Journal) afin d’extraire les articles et de faire des analyses de masse. C’est bien sûr automatisé, mais le stockage de texte permettra entre autre de trouver combien d’articles mentionnent un parti, un candidat ou un endroit.

 

J’utilise les flux RSS fournis par les médias pour trouver mon contenu. J’ai varié les sources le plus possible, comme certains classent leurs flux par sujet. Ça devrait donner un partage relativement juste. Les chiffres nous le diront.

 

Une première extraction me donne 83 articles en date du 23 août. 14 de Radio-Canada, 21 de La Presse, 16 du Devoir et 32 du Journal! Bien sûr, ces articles ne portent pas tous sur la politique, mais ça donne une idée de la capacité de production de chacun.

 

Voici les données que je stocke pour chaque article: Le titre, le journal d’origine, l’hyperlien, l’auteur, la date de publication, le texte et le nombre de mots.

 

Je considère deux articles avec le même hyperlien comme étant un même article. De cette façon, un article mis à jour suite à une correction (comme une mise à jour des événements ou une faute de frappe) ne comptera pas comme deux articles distinct. Ce n’est pas une méthode parfaite, mais c’est une solution suffisante.

 

Il y a quelques erreurs dans mon calcul du nombre de mots, mais je stocker la donnée surtout pour vérifier que je n’ai pas accidentellement chargé un article vide. Fait assez drôle, les articles du Journal sont bourré d’espaces qui, à cause d’une erreur dans mon code, comptent comme des mots. “L’article 37 burgers à dévorer pendant la Burger Week à Montréal”, qui ne contient quasiment que des images, me sort 14000 mots! Je vais devoir corriger ça.

 

Notons que je n’ai pas de solution magique pour exclure les chroniques et les articles d’opinion, quoi que je ne sais pas si je veux réellement les exclure. Radio-Canada ne diffuse pas d’opinion dans son seul flux RSS fonctionnel, soit les Manchettes. La Presse et Le Devoir semblent en contenir, mais le dernier les classe dans son propre flux, que j’ai décidé de retirer. Le Journal, avec ses manchettes et ses articles politiques, m’a sorti beaucoup d’articles, mais je n’ai pas encore vérifié si ce n’est que Montréal. Je voudrais évidemment des articles du JdQ.

 

À suivre pour le reste. Comme toujours, si vous avez des suggestions ou des statistiques que vous aimeriez connaître, faites-le moi savoir sur Facebook.