Calibration automatique de méthodes de sélection de modèles par pénalisation.

On peut décrire comme suit le problème de la sélection de modèles pour la prédiction. Étant donnéés n réalisations indépendantes d'une variable aléatoire (X,Y), on souhaite pouvoir prédire Y à partir de X. Pour cela, on dispose d'une famille de modèles, chacun exprimant par exemple le lien entre X et Y à l'aide d'un certain nombre de paramètres. L'estimation de ces paramètres à l'aide des observations fournit alors un prédicteur pour chaque modèle, et l'on souhaite sélectionner le modèle qui minimise l'erreur de prédiction sur de nouvelles réalisations de (X,Y). Or, l'erreur commise sur les données sous-estime cette erreur de prédiction. L'idée de la pénalisation est de corriger ce biais, en ajoutant au risque empirique une pénalité. Celle-ci est en général une fonction croissante de la complexité des modèles.

De nombreuses pénalités ont été proposées dans différents cadres, souvent accompagnées de résultats théoriques montrant leur optimalité. Cependant, ces pénalités dépendent généralement de constantes multiplicatives, dont la calibration optimale est soit un problème théorique ouvert, soit fonction de quantités inconnues en pratique. Nous proposons une méthode de calibration automatique de telles pénalités, n'utilisant que les données observées, et se focalisant directement sur la minimisation de l'erreur de prédiction.

Dans le cadre de la régression et d'estimateurs des moindre carrés, nous prouvons la validité théorique de cette procédure. Bien que restreinte à certains types de modèles (essentiellement pour des raisons techniques), cette justification reste valable sous des hypothèses très faibles sur la distribution des données, autorisant notamment un bruit fortement hétéroscédastique. Ce résultat concerne ainsi des pénalités de formes très différentes, en fonction de la nature du problème. La preuve d'un tel résultat repose sur la justification d'une heuristique, appelée heuristique de pente. Elle s'appuie notamment sur la compréhension fine (et non-asymptotique) de certains processus empiriques, en particulier via des inégalités de concentration.