Objectifs du cours:

  • manipuler des données réelles
  • appréhender les méthodes récentes d’apprentissage statististique et leur implémentation en R
  • maitriser R et son environnement (Rstudio, Rmarkdown)
  • construire un modèle prédictif et le valider
  • restituer les résultats: “rapport” en Rmarkdown (html ou pdf), package R associé correctement documenté, présentation orale de votre travail

Choix des données

  • choix parmi différents jeux de données “open”
  • vous pouvez proposer un jeu de données, à valider ensemble
  • type de données: série temporelle “numériques” et /ou régression (dépendance temporelle ou non)

\[ (X_i, Y_i)_{i=1,...,n}, X_i \in \mathbb{R}^k, Y_i \in \mathbb{R} \]

et l’objectif est de prévoir \(Y=f(X)\)

Quelques exemples de sources de données:

Exemple de jeux de données

  • compétitions GEFCOM 2014

https://www.crowdanalytix.com/contests/global-energy-forecasting-competition-2014-probabilistic-electric-load-forecasting

-prévoir les quantiles de la consommation électrique à 24h d’horizon

-variables explicatives: température (plusieurs localisations), températures lissées, variables calendaires, lag…

 

Drawing
Electricity consumption & probabilistic forecasts

 

Drawing
Electricity Price