Sélection d'estimateurs par validation croisée

La validation croisée est une méthode largement utilisée, en raison de sa simplicité et de son (apparente) universalité. On peut l'utiliser dans différents buts: 
(i) estimer le risque d'un estimateur, 
(ii) choisir un modèle ou un hyperparamètre, et plus généralement, choisir parmi une famille d'estimateurs. 
Cet exposé dressera les grandes lignes de ce que l'on sait sur les performances des procédures de validation croisée, en mettant l'accent sur l'objectif de la sélection d'estimateurs. 

Au premier ordre (lorsque la taille de l'échantillon tend vers l'infini), le paramètre clé est le biais de la procédure de validation croisée utilisée, qui ne dépend que de la taille de l'échantillon d'entraînement. 
Néanmoins, les termes de "deuxième ordre" comptent pour beaucoup dans les performances observées en pratique. Pour tenter d'éclairer ce point, nous discuterons de résultats récents sur l'influence de la "variance" des procédures de validation croisée sur leurs performances. 
En conclusion, nous aborderons la question de choisir la meilleure procédure de validation croisée en fonction des spécificités du problème que l'on cherche à résoudre. 

Références: 
	Article de survol (avec Alain Celisse): http://projecteuclid.org/euclid.ssu/1268143839
	Prépublication sur la validation croisée V-fold (rôle de la variance et choix de V; avec Matthieu Lerasle): http://arxiv.org/abs/1210.5830