20 juin 2019

Ernesto Arraya-Valdivia, Guillaume Maillard; Pierre Boutaud, Jacques de Catelan, David Corlin Marchand,  
Seminaire spécial Doctorants

Plus d'infos...

Résumé : Ernesto Arraya Valdivia (14h-14h30) : Estimation des points latents dans les graphes géométriques.
On considère le modèle de graphes aléatoires géométriques, où chaque sommet est associé à un point dans un espace euclidien et la probabilité de connexion entre deux sommets quelconques ne dépend que de la distance des points dans cet espace (à travers d’une fonction de lien). Dans cet exposé on considère le problème d’estimation de la matrice des distances entre les points (latents) lorsqu’on observe un graphe généré à partir d’un modèle géométrique dans la sphère euclidienne (la fonction de lien n’est pas observée). On présente une méthode spectrale pour l’estimation de cette matrice et on discute ces garanties théoriques et de possibles extensions.
Guillaume Maillard (14h30 - 15h00) : Agrégation d’hold-out
La validation croisée est souvent utilisée pour sélectionner une règle
d’apprentissage dans une famille, souvent paramétrée (sélection d’hyperparamètres).
L’agrégation d’hold-out (Agghoo) est une méthode voisine,
qui consiste à moyenner des règles d’apprentissage sélectionnées par holdout
(validation croisée avec 1 découpage). Nous obtenons les premières
garanties théoriques sur Agghoo, ce qui assure que l’on peut l’utiliser
sans risque : au pire, les performances d’Agghoo sont celles du hold-out, à
constante près. Pour le hold-out, des inégalités oracle étaient connues dans
le cas de pertes bornées, comme en classification binaire. Cette approche
semble pouvoir être étendue, sous de bonnes hypothèses, à la plupart des
problèmes de minimisation de risque. Sous des hypothèses faibles, nous
obtenons notamment une inégalité d’oracle concernant le choix du paramètre
de pénalisation des SVM à perte Lipschitz. Dans toutes ces situations,
Agghoo vérifie donc une inégalité d’oracle. Cependant, des simulations
suggèrent que le comportement réel est souvent bien meilleur que ce
que la théorie peut démontrer pour l’instant. En particulier, l’agrégation
conduit à une amélioration significative que les bornes théoriques actuelles
venant du hold-out sont incapables d’expliquer. En conséquence, l’agrégation
d’hold-out semble donc bien être compétitive en pratique, lorsqu’on
la compare à la validation croisée.
Avec Sylvain Arlot & Matthieu Lerasle
Pierre Boutaud (15h30-16h) : La martingale presque dérivée : autour des martingales de la marche aléatoire branchante.
Démarrons avec un individu situé à l’origine de la droite réelle au temps 0. A l’étape suivante, cet individu meurt et donne naissance à un nombre aléatoire d’individus se dispersant autour de la position du parent suivant un certain processus ponctuel ; chacun de ces nouveaux individus se reproduit alors indépendamment de ses frères et soeurs suivant le même processus ponctuel. Le processus de branchement ainsi décrit est appelé marche aléatoire branchante. Dans cet exposé, nous définirons rigoureusement la marche aléatoire branchante ainsi que certaines martingales utiles à la compréhension en temps long du modèle. Nous nous intéresserons notamment à la vitesse de convergence de la martingale additive, à la renormalisation de Seneta-Heyde de cette martingale ainsi qu’à ce que peut apporter la martingale presque dérivée dans la résolution de ces questions.
Jacques de Catelan (16h-16h30) : Fluctuations du modèle d’échantillonnage de Gromov-Prohorov :
Soit (T,d,mu) un espace métrique mesuré, on étudie l’approximation pour la topologie de Gromov-Prohorov de l’espace T par sa version discrète T_n = (X₁,…,X_n,d, mu_n) où (X_n) est une suite de variables aléatoires indépendantes et de loi mu et mu_n la mesure empirique de l’échantillon. Cette topologie est décrite par des observables réelles appelées polynômes introduites par Greven, Pfaffelhuber et Winter. En utilisant le théorème de Glivenko-Cantelli de convergence des mesures empiriques, on a comme on l’attend la convergence presque sûre de T_n vers T. On se propose ici d’étudier les fluctuations de ces observables autour de leur moyenne. On distingue deux cas. Un premier dit générique où la variance de l’observable est d’ordre exactement 1/n. Dans cette situation, les fluctuations sont gaussiennes et on a de plus en utilisant les résultats de la théorie de la convergence mod-gaussienne (récemment développée par Féray, Nikeghbali et Méliot) la zone de normalité de cette approximation, des estimées de déviations modérées et une inégalité de Berry-Esseen. On étudie ensuite un second cas qu’on appelle globalement singulier où la variance de l’observable est d’ordre au plus 1/n² pour tout polynôme. On montre que ce cas est équivalent à avoir l’espace de base (T,d,mu) comme un espace homogène compact (dans l’espace des espaces métriques mesurés) ce qui est étonnant car cela relie une condition probabiliste à une condition géométrique. On montre enfin un théorème central limite pour les observables renormalisées et les fluctuations ne sont alors pas forcément gaussiennes (par exemple, dans le cas du cercle).
David Colin Marchand (16h30-17h) : « Influence de la « graine » dans les arbres à attachement préférentiel affine ».
Nous considérons une suite aléatoire et croissante d’arbres construits par le mécanisme d’attachement préférentiel affine.
Partant d’un arbre fini $S$, appelé « graine », de taille $k$, de nouveaux sommets sont ajoutés un par un, en les reliant à chaque fois par une arête à un unique sommet déjà existant. Ce dernier est choisi aléatoirement, avec une probabilité proportionnelle à une fonction affine de son degré. Ceci définit une famille à un paramètre d’arbres à attachement préférentiel affine $(T_n^S)_n \geq k$, dont le modèle linéaire (Barabasi-Albert) est un cas particulier.
Nous étudions le problème de l’influence asymptotique de la « graine » sur la loi de notre suite d’arbres $(T_n^S)_n \geq k$. Nous montrons que pour deux graines distinctes $S$ et $S’$, la distance en variation totale entre les lois de $T_n^S$ et $T_n^S’$ est uniformément minorée en $n$ par une constante strictement positive.
Ce travail a été réalisé en commun avec Ioan Manolescu.

Notes de dernières minutes : 5 exposés d’une demi-heure de 14h a 17h, avec pause de 15h a 15h30.

Seminaire spécial Doctorants  Version PDF

Stefano Galatolo (Università di Pisa)
Quantitative statistical stability in random systems, computer aided proofs and linear response

Plus d'infos...

Lieu : Institut de Mathématique d’Orsay, salle 2L8

Résumé : Dynamical systems perturbed by noise appear naturally as models of physical and social systems. The presence of noise and its regularizing effects allow a functional analytic approach to be very efficient for the study of the statistical properties of these systems. In several interesting cases this can be approached rigorously by computational methods.
As a nontrivial example of this, we prove the existence of noise induced order in the model of chaotic chemical reactions where it was first discovered numerically by Matsumoto and Tsuda in 1983. We show that in this random dynamical system the increase of noise causes the Lyapunov exponent to decrease from positive to negative, stabilizing the system. The method is based on a certified approximation of the stationary measure in the L1 norm.
Time permitting we will also talk about linear response of such systems when the deterministic part of the system is perturbed deterministically.

Quantitative statistical stability in random systems, computer aided proofs and linear response  Version PDF