Partitionnement de variables, choix populaires convexifiés

Lundi 5 décembre 2016 11:00-12:00 - Martin Royer (Proba-Stats) - LMO

Résumé : On va évoquer les aspects mathématiques du problème du partitionnement de variables en statistique : est-ce que ça a du sens de regrouper des variables (par exemple des familles de gènes ou différentes régions du cerveaux) ou peut-on « expliquer » le comportement d’un ensemble de variables similaires (en quel sens ?) par des variables cachées de groupe ?
On entrera dans cette problématique principalement avec l’approche classique des k-moyennes, et on verra pourquoi l’une de ses reformulations adroites par Peng & Wei (2007) nous conduit à une relaxation convexe intéressante. On donnera quelques éléments de preuve pour montrer l’optimalité au sens minimax.
Variable clustering, fashionable choices convexified
We will touch on the mathematical aspects of statistical variable clustering, that is the problem of grouping similar components of a p-dimensional vector, (typically from gene expression data or regions of interest in the brain), defining cluster similarity and having a common latent generator account for the group’s behavior.
We investigate these aspects with the natural and fashionable clustering strategy known as K-means and its astute reformulation by Peng & Wei (2007). This leads us to a powerful convex relaxation method and we give some justifications of its capacity to recover the partition at a near minimax optimal rate.)

Lieu : salle 113-115 (bât. 425)

Partitionnement de variables, choix populaires convexifiés  Version PDF