Analyse du biais de forêts purement aléatoires Les forêts aléatoires (random forests, Breiman, 2001) sont très couramment utilisées en statistique, avec de très bonnes performances pratiques, mais leur analyse théorique complète reste un problème ouvert. Des modèles simplifiés comme les forêts purement aléatoires ont alors été introduits, afin de faire un premier pas vers la compréhension théorique des forêts aléatoires de Breiman. On dispose alors d'une décomposition du risque comme la somme de deux termes, que l'on peut interpréter comme une erreur d'approximation (du signal par le "modèle" défini par la forêt) et une erreur d'estimation (des paramètres de ce "modèle"). Robin Genuer (2010) a étudié la diminution de l'erreur d'estimation lorsque la taille de la forêt augmente. Dans cet exposé, nous nous focalisons sur l'erreur d'approximation, et son évolution en fonction de la taille de la forêt. Sous des hypothèses de régularité sur la fonction de régression, nous verrons que l'erreur d'approximation peut être significativement plus petite avec une forêt infinie qu'avec un arbre seul, ce qui se traduit par une vitesse d'apprentissage plus rapide. Par exemple, dans un cas simple avec des données unidimensionnelles, lorsque la fonction de régression est C^2, le risque de l'estimateur obtenu avec une forêt infinie atteint le taux minimax n^(-4/5) alors que le risque de l'estimateur obtenu avec un arbre seul n'atteint que le taux n^(-2/3). Cet exposé se fonde sur un travail en collaboration avec Robin Genuer. http://arxiv.org/abs/1407.3939