Prochainement

Pas d'événement prévu ce mois

Passés

Jeudi 17 mai 14:00-15:00 Marco Cuturi  (CREST-ENSAÉ)
Regularization for Optimal Transport and Dynamic Time Warping Distances

Plus d'infos...

Lieu : salle 3L15

Résumé : Machine learning deals with mathematical objects that have structure. Two common structures arising in applications are point clouds / histograms, as well as time series. Early progress in optimization (linear and dynamic programming) have provided powerful families of distances between these structures, namely Wasserstein distances and dynamic time warping scores. Because they rely both on the minimization of a linear functional over a (discrete) space of alignments and a continuous set of couplings respectively, both result in non-differentiable quantities. We show how two distinct smoothing strategies result in quantities that are better behaved and more suitable for machine learning applications, with applications to the computation of Fréchet means.

Regularization for Optimal Transport and Dynamic Time Warping Distances  Version PDF

Jeudi 10 mai 14:00-17:00  
Journée des doctorants de probabilités-statistiques

Plus d'infos...

Lieu : salle 3L15

Résumé : 14h00 : Thomas Budzinski, cartes causales surcritiques
Résumé : On s’intéresse à des cartes causales construites à partir
d’arbres de Galton-Watson surcritiques conditionnés à survivre, en reliant
à chaque hauteur les sommets consécutifs. Dans un premier temps, on mettra
en évidence des propriétés métriques « hyperboliques » de ces cartes,
exploitant le fait qu’il est très difficile de s’y déplacer
horizontalement. Dans un second temps, on étudiera la marche aléatoire sur
ces cartes, et on montrera dans le cas sans feuille qu’elle a une vitesse
positive. Certaines des méthodes utilisées sont robustes et peuvent
permettre d’obtenir des résultats sur d’autres modèles comme les PSHIT,
variantes hyperboliques de l’UIPT.
14h40 : Solene Thepaut, rang effectif et estimation de normes de matrice bruitée
Résumé : Le nombre de groupes recherchés fait partie des paramètres indispensables au fonctionnement des algorithmes de clustering utilisés pour partitionner des observations dans un jeu de données. Souvent, et particulièrement quand les groupes parmi les données ne sont pas clairement délimités, il est difficile d’estimer le nombre K de clusters dans lesquels on veut classer nos observations. Plusieurs méthodes existent pour trouver ou estimer K sans avoir à tester de manière itérative celui qui donnera la meilleure partition. Dans notre cas, on a accès à une matrice représentant notre jeu de données : Y= A + E, où Y est la matrice des observations, A la matrice contenant les données ‘réelles’ et E un bruit que l’on suppose gaussien. A cause de la nature aléatoire du bruit E, il est difficile d’estimer la nombre de clusters existants parmi nos données réelles à partir de la matrice des observations Y. On introduit alors la notion de rang effectif d’une matrice, plus souple que la rang et que l’on définit comme une fonctionnelle de normes de Schatten. Estimer le rang effectif de la matrice A à partir de Y revient à estimer le plus précisément possible les normes de Schatten de A à partir des normes de Schatten de Y.
15h20 : pause
15h30 : Thomas Lehericy, inégalités isopérimétriques dans la quadrangulation infinie uniforme du plan
Résumé : Les cartes planaires sont des graphes planaires plongés sur une surface, vus à homéomorphisme conservant l’orientation près. Introduites dans les années 80 dans le cadre de la gravité quantique, elles sont au cœur d’un champ de recherche actif en physique théorique, en combinatoire et en probabilités. Dans un premier temps, je présenterai une description des quadrangulations, qui sont des cas particuliers de cartes planaires, à l’aide d’un processus de branchement. J’expliquerai ensuite comment cette décomposition permet de résoudre une conjecture de Krikun (2009), et de répondre à une question d’Angel (2004), liée à des inégalités isopérimétriques dans la quadrangulation infinie du plan. Ces inégalités sont les plus fortes établies dans ce cadre à ce jour, et fournissent un cadre rigoureux à plusieurs observations sur la géométrie de l’objet limite.
16h10 : Augustin Touron, modélisation multivariée de variables météorologiques
Résumé : Pour réaliser des études d’impact ou encore étudier le changement climatique, on a recours à des générateurs de temps. Ces modèles statistiques permettent de générer facilement des séries réalistes de variables climatiques telles que la température ou les précipitations. Les modèles à espace d’états tels que les modèles de Markov caché sont particulièrement populaires pour atteindre cet objectif. Nous introduisons une généralisation des modèles de Markov caché permettant de prendre en compte la saisonnalité des variables climatiques. Nous verrons comment estimer les paramètres d’un tel modèle et comment on peut l’utiliser en pratique comme générateur de temps.

Journée des doctorants de probabilités-statistiques  Version PDF

Jeudi 3 mai 14:00-15:00 Niccolò Tori  (LPSM (Paris-Sorbonne))
Local and Global constraints in the Last Passage Percolation problem with applications to the directed polymer model

Plus d'infos...

Lieu : salle 3L15

Résumé : In this talk we consider two related models : (i) the last passage percolation problem and (ii) the directed polymer model. In the first part we recall the Hammersley’s Last Passage Percolation (LPP) and we introduce a generalization of this standard LPP, in order to allow for more general constraints which can be local or global. In the second part of the talk we show how these results can be applied to study the directed random polymer model in a heavy-tailed random environment. --- joint work with Quentin Berger

Local and Global constraints in the Last Passage Percolation problem with applications to the directed polymer model  Version PDF

Jeudi 12 avril 14:00-15:00 Sarah Lemler  (CentraleSupélec)
Estimation de l’intensité d’un processus de comptage en grande dimension

Plus d'infos...

Lieu : salle 3L15

Résumé : Nous cherchons à estimer/apprendre le lien entre des covariables en grande dimension et l’intensité avec laquelle des événements se produisent (décès, crises d’asthme, achats, notes de blogs, sinistres...). Pour répondre à cette problématique, nous proposons deux approches pour estimer l’intensité de sauts d’un processus de comptage en présence d’un grand nombre de covariables. D’abord, nous considérons une intensité non-paramétrique et nous l’estimons par le meilleur modèle de Cox. Nous considérons alors une procédure Lasso, spécifique à la grande dimension, pour estimer simultanément les deux paramètres inconnus du meilleur modèle de Cox approximant l’intensité. Nous prouvons des inégalités oracles non-asymptotiques pour l’estimateur Lasso obtenu. Dans une seconde partie, nous supposons que l’intensité satisfait un modèle de Cox. Nous proposons deux procédures en deux étapes pour estimer les paramètres inconnus du modèle de Cox. La première étape est commune aux deux procédures, il s’agit d’estimer le paramètre de régression en grande dimension via une procédure Lasso. Le risque de base est ensuite estimé soit par sélection de modèles, soit par un estimateur à noyau avec une fenêtre choisie par la méthode de Goldenshluger et Lepski. Nous établissons des inégalités oracles non-asymptotiques pour les deux estimateurs du risque de base ainsi obtenus. Nous menons une étude comparative de ces estimateurs sur des données simulées, et enfin, nous appliquons les procédures implémentées à une base de données sur le cancer du sein.

Estimation de l’intensité d’un processus de comptage en grande dimension  Version PDF