Objectifs du cours:
- manipuler des données réelles
- appréhender les méthodes récentes d’apprentissage statististique et leur implémentation en R
- maitriser R et son environnement (Rstudio, Rmarkdown)
- construire un modèle prédictif et le valider
- restituer les résultats: “rapport” en Rmarkdown (html ou pdf), package R associé correctement documenté, présentation orale de votre travail
Choix des données
- choix parmi différents jeux de données “open”
- vous pouvez proposer un jeu de données, à valider ensemble
- type de données: série temporelle “numériques” et /ou régression (dépendance temporelle ou non)
\[ (X_i, Y_i)_{i=1,...,n}, X_i \in \mathbb{R}^k, Y_i \in \mathbb{R} \]
et l’objectif est de prévoir \(Y=f(X)\)
Quelques exemples de sources de données:
- données de production solaire: https://www.kaggle.com/c/ams-2014-solar-energy-prediction-contest
- données de consommation/production électrique en europe: https://www.entsoe.eu, https://rte-opendata.opendatasoft.com/
- données macro-économiques/sociales: https://data.oecd.org/fr/energie.htm, insee
- données de fréquentation de station vélib. à Paris & Lyon: https://maxhalford.github.io/blog/openbikes-challenge/
- données météo: https://www.ncdc.noaa.gov/cdo-web/
- données de pollution atmosphérique: https://www.epa.gov/outdoor-air-quality-data, http://www.openair-project.org
- open data gouvernemental: http://www.data.gouv.fr/fr
- données de transport: http://www.data.gouv.fr/fr/datasets/trafic-annuel-entrant-par-station-2013/
- données financières: https://cran.r-project.org/web/packages/tidyquant/index.html
- plateforme de compétition de data science: https://www.kaggle.com, https://challengedata.ens.fr/, https://www.datascience.net/fr/home/, https://www.crowdanalytix.com/community
- données de consommation de bâtiments tertiaires: https://github.com/buds-lab/the-building-data-genome-project
Exemple de jeux de données
- compétitions GEFCOM 2014
-prévoir les quantiles de la consommation électrique à 24h d’horizon
-variables explicatives: température (plusieurs localisations), températures lissées, variables calendaires, lag…
- compétitions GEFCOM 2012
https://www.kaggle.com/c/global-energy-forecasting-competition-2012-load-forecasting
-prévoir la consommation électrique à 24h d’horizon
Il existe également des jeux de données pour les prix de l’électricité, la production photovoltaïque et la production éolienne.
Méthodes d’apprentissage statistique
- régression linéaire & sélection de variable (ridge, lasso, elastic net, slope…)
- modèles additifs (GAM), projection poursuit
- arbres de régression (CART)
- random forest
- gradient boosting
- time series (exponential smoothing, SARIMA)
- online expert aggregation
Références utiles
Manipulation de données avec R
- R for data science, Hadley Wickham & Garrett Grolemund, O’ Reilly. http://r4ds.had.co.nz
R
- R packages, Hadley Wickham, O’ Reilly http://r-pkgs.had.co.nz
- Rmarkdown gallery http://rmarkdown.rstudio.com/gallery.html
- Introduction to Rmarkdown http://rmarkdown.rstudio.com/articles_intro.html
Machine learning
- Breiman, L. Random Forests, 2001. https://www.stat.berkeley.edu/~breiman/randomforest2001.pdf
- Classification and Regression Trees, Breiman, L, 1984, The Wadsworth Statistics/Probability Series.
- Boosting, Foundations and Algorithms, Robert E. Schapire and Yoav Freund, The MIT press.
- Generalized Additive Models: An Introduction with R, Simon Wood, Chapman and Hall/CRC, 2006
- Generalized additive models, Trevor Hastie and Robert Tibshirani, Chapman & Hall, 1990.
- The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer Series in Statistics, 2009. https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf
- Time Series Analysis, 2008, George E. P. Box, Gwilym M. Jenkins, Gregory C. Reinsel, John Wiley & Sons.
- Prediction, Learning, and Games, Nicolo Cesa-Bianchi, Gabor Lugosi, 2006. http://www.ii.uni.wroc.pl/~lukstafi/pmwiki/uploads/AGT/Prediction_Learning_and_Games.pdf
IT
packages R à installer:
- packages génériques
library(magrittr)
library(XML)
library(RCurl)
library(tidyverse)
library(lubridate)
library(xts)
- pour la modélisation
library(gbm)
library(xgboost)
library(mgcv)
library(mboost)
library(randomForest)
library(ranger)
library(forecast)
library(rpart)
library(party)
library(tree)
library(opera)
- pour la visualisation/description de données
library(RColorBrewer)
library(yarrr)
library(mgcViz)
library(dygraphs)
library(ggplot2)
library(ggthemes)
library(gridExtra)
library(rpart.plot)
library(ALEPlot)
- pour les données météo
library(riem)
library(weathermetrics)
Organisation du cours
15 séances de 2h à EDF Lab/Orsay:
Pour venir, cf: https://www.fondation-hadamard.fr/sites/default/files/public/bibliotheque/how_to_come_to_edf_lab_paris_saclay-2.pdf
Le cours sera dans une des salles du batiment Azur, au premier étage. Les salles sont indiquées ici: https://www.math.u-psud.fr/~goude/Materials/ProjetMLF/cours_orga2019_2020_V2.html
Groupe de TP:
https://drive.google.com/open?id=1zFOpdbYRQmdujaZIKkeN2nztifLEzschqbOZmEMXtCo