Objectifs du cours:

  • manipuler des données réelles
  • appréhender les méthodes récentes d’apprentissage statististique et leur implémentation en R
  • maitriser R et son environnement (Rstudio, Rmarkdown)
  • construire un modèle prédictif et le valider
  • restituer les résultats: “rapport” en Rmarkdown (html ou pdf), package R associé correctement documenté, présentation orale de votre travail

Choix des données

  • choix parmi différents jeux de données “open”
  • vous pouvez proposer un jeu de données, à valider ensemble
  • type de données: série temporelle “numériques” et /ou régression (dépendance temporelle ou non)

\[ (X_i, Y_i)_{i=1,...,n}, X_i \in \mathbb{R}^k, Y_i \in \mathbb{R} \]

et l’objectif est de prévoir \(Y=f(X)\)

Quelques exemples de sources de données:

Exemple de jeux de données

  • compétitions GEFCOM 2014

https://www.crowdanalytix.com/contests/global-energy-forecasting-competition-2014-probabilistic-electric-load-forecasting

-prévoir les quantiles de la consommation électrique à 24h d’horizon

-variables explicatives: température (plusieurs localisations), températures lissées, variables calendaires, lag…

 

Drawing
Electricity consumption & probabilistic forecasts

 

Drawing
Electricity Price

 

Drawing
PV production

 

Drawing
Wind farm production
  • compétitions GEFCOM 2012

https://www.kaggle.com/c/global-energy-forecasting-competition-2012-load-forecasting

-prévoir la consommation électrique à 24h d’horizon

Il existe également des jeux de données pour les prix de l’électricité, la production photovoltaïque et la production éolienne.

Méthodes d’apprentissage statistique

  • régression linéaire & sélection de variable (ridge, lasso, elastic net, slope…)
  • modèles additifs (GAM), projection poursuit
  • arbres de régression (CART)
  • random forest
  • gradient boosting
  • time series (exponential smoothing, SARIMA)
  • online expert aggregation

Références utiles

Manipulation de données avec R

R

Machine learning

IT

packages R à installer:

  • packages génériques
library(magrittr)
library(XML)
library(RCurl)
library(tidyverse)
library(lubridate)
library(xts)
  • pour la modélisation
library(gbm)
library(xgboost)
library(mgcv)
library(mboost)
library(randomForest)
library(ranger)
library(forecast)
library(rpart)
library(party)
library(tree)
library(opera)
  • pour la visualisation/description de données
library(RColorBrewer)
library(yarrr)
library(mgcViz)
library(dygraphs)
library(ggplot2)
library(ggthemes)
library(gridExtra)
library(rpart.plot)
library(ALEPlot)
  • pour les données météo
library(riem) 
library(weathermetrics)

Organisation du cours

15 séances de 2h à EDF Lab/Orsay:

Pour venir, cf: https://www.fondation-hadamard.fr/sites/default/files/public/bibliotheque/how_to_come_to_edf_lab_paris_saclay-2.pdf

Le cours sera dans une des salles du batiment Azur, au premier étage. Les salles sont indiquées ici: https://www.math.u-psud.fr/~goude/Materials/ProjetMLF/cours_orga2019_2020_V2.html

Groupe de TP:

https://drive.google.com/open?id=1zFOpdbYRQmdujaZIKkeN2nztifLEzschqbOZmEMXtCo