Introduction

De par le caractère important qu’elles ont sur la population et les décisions à l’échelle nationale et internationale, les élections présidentielles sont toujours des évènements grandement médiatisés. Il est alors naturel de se demander s’il est possible d’utiliser des méthodes statistiques afin d’étudier les liens de causalité entre médias et popularité des candidats, pour ainsi dégager des tendances globales sur l’avis de la population.

Nous nous proposons d’étudier trois jeux de données liées aux élections présidentielles françaises de 2017: -Le dataset baromètre INA qui contient le temps alloué à 14 thématiques (parmi “économie”, “sport”, “société”, etc…) sur les 6 principales chaînes de télévision françaises (TF1, France 2, France 3, Canal, Arte, M6). Nous avons accès à ces informations chaque mois, de 2005 à 2018. -Le dataset IPSOS, dans lequel nous avons relevé le baromètre de popularité de trois candidats aux élections présidentielles (Nicolas Sarkozy, Marine Le Pen, Jean-Luc Mélenchon), chaque mois de septembre 2014 à décembre 2018. -Le dataset Sondages, que nous avons constitué en récupérant les données de grands sondages sur Wikipédia en utilisant des méthodes de web scraping.

Dans un premier temps, nous allons charger les jeux de données, et effectuer une brève analyse exploratrice pour comprendre de quoi ils sont constitués.

Données INA

Le premier jeu de données que nous avons testé est celui fourni par l’INA (plus d’informations sont diponibles ici http://www.inatheque.fr/publications-evenements/ina-stat/ina-stat-methodologie.html). Il est à disposition dans un fichier nommé “ina-barometre-jt-tv-donnees-mensuelles-2005-2018-durees.csv”.

ABCDEFGHIJ0123456789
MOIS
<date>
THEMATIQUES
<chr>
TF1
<S3: hms>
France2
<S3: hms>
France3
<S3: hms>
Canal
<S3: hms>
Arte
<S3: hms>
M6
<S3: hms>
2005-01-01Catastrophes05:39:5005:13:5602:35:0100:22:4100:51:5101:07:28
2005-01-01Culture-loisirs00:50:2201:24:0401:12:2700:04:1200:00:0000:27:44
2005-01-01Economie00:52:2500:31:1200:16:3900:01:5900:07:5900:11:04
2005-01-01Education00:22:0000:20:4200:09:4600:02:1800:04:3500:13:10
2005-01-01Environnement00:45:0000:32:5500:23:0900:00:4100:02:1600:09:46
2005-01-01Faits divers00:37:2800:27:4300:15:5000:01:2200:00:2000:10:33

Nous pouvons réarranger les données afin de réordonner les éléments d’un sujet sur une chaîne de manière consécutive. Ainsi, au lieu d’avoir les 14 sujets sur toutes les chaînes à chaque mois, nous obtenons chaque sujet sur chaque chaîne, et nous pouvons ainsi les afficher.

ABCDEFGHIJ0123456789
MOIS
<date>
TF1Catastrophes
<S3: hms>
France2Catastrophes
<S3: hms>
France3Catastrophes
<S3: hms>
CanalCatastrophes
<S3: hms>
2005-01-0105:39:5005:13:5602:35:0100:22:41
2005-02-0100:59:3000:45:0600:18:3000:04:44
2005-03-0101:12:3401:00:4000:41:5000:01:11
2005-04-0100:23:0000:31:0600:08:1100:01:18
2005-05-0100:16:4200:12:5400:10:0800:00:23
2005-06-0100:59:0500:33:4900:36:1500:02:21

Par exemple, si nous nous intéressons au temps d’écran de certains sujets sur TF1, tels que la culture, le sport et la politique en France, nous obtenons

Le sport est majoritairement ponctué par les grandes compétitions ayant lieu une fois tous les deux ans, nous pouvons doncc remarquer que ce sujet présente une forte représentation à la télévision lors de ces moments là, puis une représentation plutôt faible le reste du temps. La culture a quant à elle un temps d’écran plutôt constant et n’est pas marquée par des évènements en particulier. Le sujet de la politique en France est devenu très médiatisé à partir de 2015, avec le plus fort taux de médiatisation à l’approche des présidentielles en 2017.

Nous remarquons également que nous avons une représentation inégale des données sur les chaînes de télévision française. Alors que TF1 et France 2 ont des programmes très similaires, Arte est une chaîne sur laquelle la politique n’est quasiment pas représentée.

Nous pouvons d’aillers vérifier ceci

Ce qui confirme le fait que TF1 et France 2 sont similaires, et qu’Arte ne diffuse que très peu de politique par rapport à eux. On notera que Canal+ est la chaîne qui diffuse ce sujet le moins.

Si nous nous intéressons maintenant à une vision plus locale de la médiatisation de ces élections, sur TF1 par exemple,

Nous pouvons apercevoir une forte augmentation de la médiatisation de la politique en 2015, notamment à cause de l’anticipation de l’élection présidentielle, des élections départementales et régionales. Nous assistons également à la montée du Front National après les attentats terrostistes de Charlie Hebdo, du Bataclan puis du Stade de France. Le F.N. effectue d’ailleurs cette année-là les meilleurs scores électoraux de son histoire, et s’ensuit la succession de Marine Le Pen à son père, exclu du parti après des propos antisémites.

##Travail sur les variables explicatives

Nous nous sommes intéressés aux liens pouvant exister entre les données et souhaitons notamment répondre aux questions: Quand une chaine parle d’un sujet, est ce que les autres chaines vont aussi en parler ? Certains sujets sont ils traités de manière différentes (en terme de temps d’antenne) entre les différentes chaînes ? Les données étant mensuelles, on ne peut pas regarder des variations fines mais bien des variations importantes où des chaînes vont collectivement beaucoup parler d’un sujet.

Sur cette matrice de corrélation, on peut voir que TF1, France2, France 3, M6 et Canal+ parlent de faits divers à peu près en même temps. Arte se distingue et en parle à des moments différents.

Cette différence entre les différents journaux est plus faible sur d’autres sujets comme celui des catastrophes.

[1] 113  85
[1] 49 85

Call:
 randomForest(formula = ArteCatastrophes ~ ., data = data.frame(train1),      importance = TRUE) 
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 28

          Mean of squared residuals: 514614
                    % Var explained: 34.1

On voit ici que si on cherchait à determiner le temps d’antenne des catastrophes sur Arte, on aurait seulement une explication d’autour de 25% due aux autres chaines.

[1] 113  85
[1] 49 85

Call:
 randomForest(formula = France2Catastrophes ~ ., data = data.frame(train1),      importance = TRUE) 
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 28

          Mean of squared residuals: 1652458
                    % Var explained: 82.36

Si on cherche à expliquer des variables liées à France2, on voit à l’inverse qu’on peut plus facilement l’expliquer à partir des autres variables.

Dataset IPSOS

Le second dataset que nous étudions est le dataset IPSOS, qui indique si sur un échantillon de 1000 personnes, la population est plutôt favorable ou non à un candidat (plus d’informations peuvent être trouvées ici https://www.ipsos.com/fr-fr/barometre-politique). Pour ce jeu de données, nous avons manuellement récupéré la popularité de 3 personnes politiques importantes: Nicolas Sarkozy, Marine Le Pen et Jean-Luc Melenchon. Nous les avons choisis car étant présents dans le champ politique depuis longtemps, IPSOS dispose de nombreuses données les concernant.

The following named parsers don't match the column names: MOIS, THEMATIQUES
      Date            Nicolas Sarkozy Marine Le Pen   Jean-Luc-Melenchon
 Min.   :2014-09-01   Min.   :23.00   Min.   :20.00   Min.   :23.00     
 1st Qu.:2015-09-16   1st Qu.:28.00   1st Qu.:24.00   1st Qu.:28.00     
 Median :2016-11-01   Median :30.00   Median :25.00   Median :30.00     
 Mean   :2016-10-14   Mean   :30.47   Mean   :26.15   Mean   :31.26     
 3rd Qu.:2017-11-16   3rd Qu.:32.50   3rd Qu.:27.00   3rd Qu.:33.00     
 Max.   :2018-12-01   Max.   :40.00   Max.   :34.00   Max.   :56.00     

Plot Data IPSOS

Nous observons que les candidats favoris sont globalement Nicolas Sarkozy suivi de Jean-Luc Mélenchon, qui s’envole en début 2017 où il est très présent médiatiquement parlant. Nous observons également qu’une partie importante de la population est favorable à la candidate du Front National.

Le candidat le plus populaire “globalement” sur la période est donc Jean-Luc Mélenchon.

On note que les popularités ne s’ajoutent pas pour faire 100% car on ne relève ici qu’une popularité globale sur la population, et pas un pourcentage de voix dans les sondages. Dans un climat politique où les candidats ne conviendraient pas à la population, on peut même imaginer un scénario hypothétoque où aucun candidat n’a plus de 10% de popularité par exemple.

Dataset Sondages

Nous créons un jeu de données Sondages en récoltant des résultats de sondages de différentes sources sur Wikipédia (plus d’informations sont disponibles ici https://en.wikipedia.org/wiki/Opinion_polling_for_the_2017_French_presidential_election).

NAs introduits lors de la conversion automatique
 1 failed to parse.
 1 failed to parse.

Plot Data Surveys

Nous apercevons l’ascension puis déclin de François Fillon à cause du “Pénélopegate” qui relève de l’accusation envers le candidat de créer des emplois fictifs pour sa femme. Entre le 31 décembre 2016 et le 31 mars 2017, 290 sujets ont rendu compte de l’affaire Fillon, soit 53,7% de la totalité des sujets consacrés au candidat de la Droite et du Centre (source: INA). Il est également intéressants de noter que Jean-Luc Mélenchon et François Fillons sont les deux candidats les plus cités dans les Tweets, et qu’ils seront tous deux éliminés au premier tour.

Ce plot de popularité nous permet de nous rendre compte que Macron ne partait clairement pas vainqueur de l’élection. Ce dernier a d’ailleurs été bien moins médiatisé que d’autres candidats au début de la campagne, pour l’être beaucoup sur la fin. Seuls 4 candidats (F. Fillon, E. Macron, B. Hamon et M. Le Pen) apparaissent plus de 100 fois à la télévision pendant la campagne présidentielle de février à avril 2017. Pour comparaison, F. Fillon apparaît 164 fois tandis que J.L. Mélenchon seulement 72 fois (source: INA).

LASSO régression sur le dataset IPSOS

Nous allons maintenant analyser ces données pour déterminer si nous pouvons trouver des liens entre la popularité des candidats et la médiatisation de certains sujets à la télévision française. Nous voulons savoir s’il est possible de déterminer un lien entre la médiatisation de certains sujets et la popularité des candidats.

Nous prenons l’example de Jean-Luc-Melenchon:

[1] 16.13989

Nous remarquons que même si nous sélectionnons le meilleur lambda pour la régularisation l1, nous obtenons quand même une erreur “importante” sur le risque empirique.

Ce plot permet de retrouver l’intuition derrière le LASSO, si lambda est grand, la solution sera très sparse et tous les coefficients seront amenés à zéro. S’il est petit et procche de zéro, le terme à minimiser sera le terme de fidélité avec les données et on se ramène à un problème des moindres carrés ordinaires. Si on zoomait sur la zone à droite, on pourrait observer une solution linéaire par morceaux, c’est dû à l’opérateur du soft thresholding, qui minimise le LASSO.

Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per fold

Nous pouvons ici remarquer qu’il y a un lambda optimal près de 1 (son log est proche de zéro), et la MSE remonte après l’avoir atteint.

<sparse>[ <logic> ] : .M.sub.i.logical() maybe inefficient
[1]  3.352243e+01 -8.325441e-05 -7.154112e-04  3.431529e-04  1.124067e-04 -7.446715e-03
[1] "(Intercept)"                   "France3Catastrophes"           "France2Justice"               
[4] "`ArtePolitique France`"        "`M6Politique France`"          "`CanalSciences et techniques`"

Nous pouvons retrouver ici les variables que la régression LASSO a sélectionné. Comme attendu, nous retrouvons la politique en France sur deux chaînes, mais retrouvons également des variables plus discutables comme “Sciences et techniques” sur Canal+. Le fait que nous n’ayons que peu de données pour la régression nous amène à ne pas pouvoir réellement sélectionner toutes les variables. Un comportement à l’échelle plus locale aurait pu être désireux (avec des données INA toutes les semaines au lieu de tous les mois par exemple) afin d’analyser des séries temporelles de manière plus précise.

Random Forests

[1] 29 88
[1] 12 88

Call:
 randomForest(formula = Jean.Luc.Melenchon ~ ., data = train,      importance = TRUE) 
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 29

          Mean of squared residuals: 25.019
                    % Var explained: 25.64
    prediction
     30.8015666666667 31.2691333333333 31.3380333333333 31.4463 31.5000333333334 31.8460333333333 34.5885 34.6334
  26                0                1                0       0                0                0       0       0
  27                0                0                0       1                0                0       0       0
  28                1                0                0       0                0                0       0       0
  29                0                0                0       0                0                0       0       0
  30                0                0                1       0                0                0       0       0
  31                0                0                0       0                1                0       0       0
  32                0                0                0       0                0                1       0       0
  33                0                0                0       0                0                0       1       0
  34                0                0                0       0                0                0       0       0
  36                0                0                0       0                0                0       0       0
  38                0                0                0       0                0                0       0       1
    prediction
     34.793 35.6407666666667 35.7535666666667 39.3703666666666
  26      0                0                0                0
  27      0                0                0                0
  28      0                0                0                0
  29      0                0                1                0
  30      0                0                0                0
  31      0                1                0                0
  32      0                0                0                0
  33      0                0                0                0
  34      1                0                0                0
  36      0                0                0                1
  38      0                0                0                0

On voit que nous pouvons obtenir certaines corrélations, car le nombre de données est plus élevé. On se pose donc la question: Est ce qu’il y a une corrélation entre la popularité des candidats et les intentions de vote envers ces candidats ? Cela permettrait de se baser sur les données pré-élections pour voir les sujets qui ont un lien avec la popularité du candidat puis de voir l’évolution de ces sujets pour estimer les intentions de vote. On va ici regarder les coefficients de corrélation entre ces deux variables et voir si on peut expliquer le vote par la popularité. On étudie ici Jean-Luc Mélenchon et Marine Le Pen car ce sont les deux candidats dont on a les données IPSOS. Il serait intéressant d’étendre cette analyse aux autres candidats.

Pour Marine Le Pen:

[1] 0.05767579

On peut voir que pour Marine Le Pen, le coefficient de corrélation est très faible: 0.05767579. Il n’y a que peu de lien entre sa popularité et les intentions de vote. Ce peut être du au fait qu’elle peut mobiliser contre elle (effet repoussoir): si sa popularité augmente, des électeurs pensant qu’elle a une chance de gagner, vont choisir de voter pour un autre candidat et donc mécaniquement faire baisser son score. Ce peut être aussi dû aux redressements particuliers au vote FN effectué par les instituts de sondage (voir cet article du Monde: https://www.lemonde.fr/politique/article/2011/03/07/marine-le-pen-les-sondeurs-ont-ils-les-bonnes-methodes-d-evaluation_1487972_823448.html). Enfin, ce peut également être tout simplement dû au fait que sa popularité et ses intentions de vote sont restés relativement stable et complique le fait de vouloir trouver une tendance.

Pour Jean-Luc Melenchon:

[1] 0.7870257

À l’inverse, il y a un bien meilleur coefficient de corrélation (0.7870257), pour Jean-Luc Mélenchon.

On voit en regardant sur ce graphique que c’est en partie dû à une très bonne popularité (56%) concomitante avec une augmentation de ses intentions de vote, juste avant l’élection (Avril 2017).

Conclusion

Quelques points auquels nous avons abouti au cours de notre travail: - Il y a peu de données sur ce sujet et ces données sont en général peu précises (l’incertitudes des sondages est de l’ordre de quelques pourcents, ce qui est souvent plus important que les incertitudes). Cela a donc restreint les possibilités et nous a contraint à considérer des cas particuliers. - La base de données des Actus du journal TV est très intéressante et permet de voir des corrélations entre ce que traitent les différents journaux TV et des différences entre les différentes chaînes. - Il est possible de relever certaines corrélations pour la popularité (données IPSOS). - La popularité n’est pas forcément correlée avec les intentions de vote (par exemple dans le cas de Marine Le Pen).

Poursuites éventuelles: - Il pourrait être intéressant de mener un travail complémentaire en comparant la popularité et les intentions de vote. Cela pourrait permettre de voir si des candidats sont populaires mais n’arrivent pas à rassembler leur camp. On peut penser à Benoît Hamon qui était sans doute dans ce cas. - Une limite que l’on connaissait dès le début était le fait qu’il était impossible de connaître si une information était positive ou négative. Une amélioration possible serait de considérer des occurences des noms de certains candidats avec des mots mélioratifs/péjoratifs dans ces journaux pour établir une classification plus précise.

