Cinq étudiants de l'école Télécom Paris Tech ont utilisé le big data, les réseaux sociaux et sondages pour prédire un duel Le Pen-Fillon au second tour.
Mohamed Al Ani, Davy Bensoussan, Alexandre Brehelin, Bertrand de Véricourt et Raphaël Vignes
Modifié le -
Publié le
| Le Point.fr
Qui a dit qu'une élection présidentielle n'était pas rationnelle ?
Qu'on ne pouvait rien prévoir ? Qu'on ne pouvait ni anticiper le choix
des électeurs ni, chose risquée, pronostiquer le duo qualifié pour la
finale ? Les sondages s'y sont essayés avec plus ou moins de succès.
Mais en croisant plusieurs données, des études d'opinion aux recherches Google, en s'intéressant à la géographie électorale et aux résonnances sur Twitter,
Mohamed Al Ani, Davy Bensoussan, Alexandre Brehelin, Bertrand
de Véricourt (le chef de projet) et Raphaël Vignes, cinq étudiants
de l'école Télécom Paris Tech, ont bâti un raisonnement qui ambitionne
de révéler le nom des deux candidats qualifiés au second tour. La
prédiction de ces data scientists est la suivante : Marine Le Pen (24,13 %) devancerait François Fillon (21,77 %). Emmanuel Macron
arriverait troisième avec 20,32 % et Jean-Luc Mélenchon suivrait à
18,66 %. Dans une élection totalement déroutante, marquée par un
resserrement généralisé à une semaine du scrutin, la prédiction finale
sera-t-elle validée par les urnes ? Nous le saurons dans quelques jours.
L'analyse. Predict the president : quand le big data rencontre sondages et réseaux sociaux
Entre Emmanuel Macron qui ne se revendique ni de droite ni
de gauche ni du centre, la montée en flèche des extrêmes de Marine Le
Pen et Jean-Luc Mélenchon et le Parti socialiste de Benoît Hamon au plus
bas dans les sondages, les élections présidentielles de 2017 sont un réel casse-tête. Casse-tête que nous avons tenté de résoudre en modélisant les élections mathématiquement en vue d'en prédire le résultat.
Évidemment, qui dit prédiction pense à sondage d'opinion.
Les sondages, qui ont longtemps régné en maître du domaine, ont
plusieurs fois montré leurs faiblesses. Ceux-ci avaient notamment donné
Hillary Clinton largement vainqueur contre Donald Trump. Beaucoup ont
remis en cause cet outil, jugé dépassé, et qu'aujourd'hui les outils
mathématiques et statistiques du big data ainsi que la démocratisation
du partage de l'opinion grâce aux réseaux sociaux laissent bien moins de
place à l'erreur. Faut-il complètement oublier les sondages ? À cette
question, nous répondons non. Les sondages montrent, certes, des
incertitudes et des marges d'erreur, mais ils décrivent tout de même une
tendance, et détiennent une information qui n'est pas à négliger.
Que se passerait-il si nous combinions big data d'Internet,
données socio-démographiques et économiques, et sondages pour tenter de
prédire le prochain président français ? C'est l'idée que nous avons
cherché à approfondir.
Chercher une évolution historique des votes
La question à se poser est la suivante : qu'est-ce qui peut
influencer un vote ? Au-delà de l'aspect personnel de chaque citoyen
qu'il est impossible à prédire, nous tentons de décrire une tendance de
vote plus globale, à la granularité départementale. Regardons une carte
des votes pour François Hollande au second tour de la présidentielle de
2012.
Nous remarquons une certaine scission de la France. L'Est
semble beaucoup moins à gauche que le Sud-Ouest. La Bretagne quant à
elle semble partisane de la gauche, au contraire de la Corse. On observe
ainsi un vote territorial.
Nous pouvons aussi observer les votes parisiens en fonction du temps.
Presque toujours à droite, le département parisien semble
allergique à l'extrême droite, qui perd en popularité au cours du temps.
En plus d'un vote territorial, il semble y avoir un vote dépendant du
temps. Le problème à résoudre est le suivant : par quelles variables
sont dictés les votes temporels et territoriaux ?
Passons de l'analyse à la modélisation. L'open data est
aujourd'hui une mine d'or. Les données du Web, de l'Insee et de
data.gouv ont une valeur certaine pour notre étude. Ce sont les données
que nous avons utilisées pour notre prédiction.
L'objectif est alors de déterminer le résultat du premier
tour par département, grâce à des données temporelles et
départementales. Le modèle que nous présentons repose sur plusieurs
hypothèses. L'hypothèse que les électeurs peuvent être regroupés
en 4 catégories distinctes :
- Les électeurs du bloc de gauche (gauche et extrême gauche qu'on regroupe pour des raisons de performance de modèle) ;
- les électeurs du bloc du centre ;
- les électeurs du bloc de la droite ;
- les électeurs du bloc de l'extrême droite.
Notre deuxième hypothèse est qu'Emmanuel Macron se situe
dans le bloc de gauche. La troisième est que le vote départemental peut
être expliqué par des données sociales, démographiques et économiques.
Enfin, l'hypothèse que la géographie des départements ainsi que les
votes des élections passés dans les départements ont une influence sur
les votes de 2017. On regroupe les départements en plusieurs
catégories : les partisans des blocs qui votent à chaque élection pour
un bloc en particulier, les départements dissidents qui votent à
l'opposé de la tendance nationale, le bloc du président de département
et la persistance de celui-ci.
Cette année, contrairement à toutes les élections
précédentes, il n'y a pas de candidat du centre. Ou du moins, aucun
candidat qui a les mêmes caractéristiques que les candidats historiques
du centre. Nous modélisons alors un vote du centre, en imaginant le cas
de figure où François Bayrou ou un autre candidat du centre se
présenterait. Les voix prédites pour le centre seront par la suite
distribuées entre les candidats.
À partir de ces données, nous utilisons des modèles de
Machine Learning et d'économétrie qui nous permettent de déterminer un
taux de vote pour chacun des blocs.
Voici le résultat de l'algorithme :
23,5 % pour l'extrême droite de Marine Le Pen, 40,1 % pour
le bloc de gauche, 26 % pour la droite et 10,4 % pour le centre
hypothétique.
En testant cet algorithme sur 2012, nous avons trouvé une marge d'erreur moyenne de +/- 2,5 % pour chacun des blocs.
En testant cet algorithme sur 2012, nous avons trouvé une marge d'erreur moyenne de +/- 2,5 % pour chacun des blocs.
Source: lepoint.fr




