Calculs et traitements numériques des données

Le laboratoire dispose d’un cluster de calcul (10 noeuds, 352 cœurs et 1.8To de mémoire RAM) permettant de développer et d’exécuter des codes de recherche parallèles ou séquentiels. Ce cluster est une première étape avant l’utilisation de moyens de calcul plus importants tels que les Mésocentres ou les Centres Nationaux (IDRIS). Quatre ingénieurs applicatifs regroupés au sein d’un Pôle de Calcul assurent le support utilisateur.

Cette rubrique a pour but de montrer quelques exemples de calculs réalisés au laboratoire. Les principaux domaines d’application concernent le calcul scientifique et les traitements numériques des données.

Dense flow around a sphere moving into a cloud of grains

Sylvain Faure (LMO), Aline Lefebvre−Lepot (CMAP), Philippe Gondret (FAST), Antoine Seguin (FAST)

A bidimensional simulation of a sphere moving at constant velocity into a cloud of smaller spherical grains without gravity is presented with a non-smooth contact dynamics method. A dense granular “cluster” zone of about constant solid fraction builds progressively around the moving sphere until a stationary regime appears with a constant upstream cluster size that increases with the initial solid fraction φ0 of the cloud. A detailed analysis of the local strain rate and local stress fields inside the cluster reveals that, despite different spatial variations of strain and stresses, the local friction coefficient μ appears to depend only on the local inertial number I as well as the local solid fraction φ, which means that a local rheology does exist in the present non parallel flow.

To read more...

The key point is that the spatial variations of I inside the cluster does not depend on the sphere velocity and explore only a small range between about 10−2 and 10−1. The influence of sidewalls is then investigated on the flow and the forces.

References :

P. Gondret, S. Faure, A. Lefebvre−Lepot, A. Seguin, Dense flow around a sphere moving into a cloud of grains, EPJ Web of Conf. 140, Powders & Grains 2017

A. Seguin, A. Lefebvre−Lepot, S. Faure, P. Gondret, Clustering and flow around a sphere moving into a grain cloud, Eur. Phys. J. E, 39:63, 2016

Scalable Clustering of Individual Electrical Curves for Profiling and Bottom-Up Forecasting

Benjamin Auder (LMO), Jairo Cugliari (ERIC EA), Yannig Goude (LMO), Jean-Michel Poggi (LMO)

Smart grids require flexible data driven forecasting methods. We propose clustering tools for bottom-up short-term load forecasting. We focus on individual consumption data analysis which plays a major role for energy management and electricity load forecasting. The idea of hierarchical time-series for bottom-up forecasting is to decompose the global signal and obtain disaggregated forecasts in such a way that their sum enhances the prediction.

To read more...

This is done in three steps : identify a rather large number of super-consumers by clustering their energy profiles, generate a hierarchy of nested partitions and choose the one that minimize a prediction criterion. Using a nonparametric model to handle forecasting, and wavelets to define various notions of similarity between load curves, this disaggregation strategy gives a 16% improvement in forecasting accuracy when applied to French individual consumers. Then, this strategy is implemented using R—the free software environment for statistical computing—so that it can scale when dealing with massive datasets. The proposed solution is to make the algorithm scalable combine data storage, parallel computing and double clustering step to define the super-consumers. The resulting software is openly available.

References :

B. Auder, J. Cugliari, Y. Goude and J.-M. Poggi, Scalable Clustering of Individual Electrical Curves for Profiling and Bottom-Up Forecasting, Energies 2018, 11, 1893, 2018. pdf

Mélange de prédicteurs pour la prévision séquentielle de la pollution par les PM10 en Haute Normandie

Benjamin Auder (LMO), Jean-Michel Poggi (LMO), Bruno Portier (INSA Rouen)

Dans le cadre de la surveillance de la qualité de l’air en Normandie, on expérimente les méthodes d’agrégation séquentielle pour la prévision le jour pour le lendemain, des concentrations de PM10. Outre le domaine d’application et l’adaptation au contexte concret du travail du prévisionniste, la principale originalité de ce travail est que l’ensemble initial d’experts contient à la fois des modèles statistiques bâtis à l’aide de différentes méthodes et d’ensemble de prédicteurs divers, ainsi que des experts qui sont des modèles déterministes de prédiction physico-chimiques modélisant pollution, météo et atmosphère.

En savoir plus...

Des résultats numériques sur des données récentes d’avril 2013 à mars 2014, sur trois sites de mesures, illustrent et comparent diverses méthodes d’agrégation. Les résultats obtenus montrent qu’une telle stratégie améliore nettement les performances du meilleur expert tant en erreurs qu’en alertes et assure un « débiaisage » du nuage réalisés-prévus, difficile à obtenir d’ordinaire.

Références :
B. Auder, J.-M. Poggi et B. Portier, Mélange de prédicteurs pour la prévision séquentielle de la pollution par les PM10 en Haute Normandie, pdf

Monitoring species abundances with crowdsourcing data

Camille Coron (LMO), Clément Calenge (ONCFS), Christophe Giraud (LMO) and Romain Julliard (MNHN)

Crowdsourcing data from social networks or dedicated apps are massive and offer a wide spatio-temporal coverage. Yet, exploiting these data in a species monitoring perspective is challenging, due to the absence of standardization of the collection processes. A solution is to combine these data with some standardized data. Even if the amount of standardized data is negligeable compared to the amount of crowdsourcing data, the standardized data allow to correct for bias and to significantly improve the quality of the monitoring of species abundance variations. A key step when combining the data is to take into account habitat stratification. We propose a Bayesian modeling of the data collection, allowing to take into account species habitat preferences, observers habitat biases and heterogeneous species detectabilities. The bayesian estimation process is implemented with JAGS.

To read more

Reference :

C. Coron, C. Calenge, C. Giraud and R. Julliard, Bayesian estimation of species relative abundances and habitat preferences using opportunistic data, Environ Ecol Stat (2018) 25 : 71. Link

Reconstruction volumique de poumons de rats

Hugo Leclerc (LMO), Bertrand Maury (LMO et ENS Ulm)

Ce travail a pour objectif de reconstruire en volume des poumons de rat in vivo à partir de radiographies haute résolution prises à l’ESRF (synchrotron de Grenoble). Les données brutes représentent 2To, et les premières reconstructions simples ont demandé plusieurs jours de calcul en utilisant le clusters à sa pleine capacité, Il y avait cependant des enjeux sur le traitement du bruit et sur les problèmes liés aux mouvement des rats pendant les mesures.

En savoir plus...

Le traitement de ces problèmes implique le développement d’algorithmes spécifiques (proches du deep learning), très consommateurs en ressources. Ces derniers ont été optimisé spécifiquement pour GPU (code ad hoc), permettant d’exploiter les cartes Nvidia installées dans le cluster afin d’obtenir des temps d’itérations sensiblement plus courts.

Transport optimal en semi-discret

Hugo Leclerc (LMO), Quentin Mérigot (LMO)

Il s’agit de mettre au point des algorithmes utilisant le transport optimal en semi-discret pour résoudre des EDP. Le cluster a permis de faire passer des calculs à grand nombre de particules (plusieurs millions et plus) en des temps raisonnables, notamment pour étudier le passage à la limite.

Un modèle à chaîne de Markov...

Luc Lehericy (LMO)

Un modèle à chaîne de Markov cachée peut être vu comme un processus markovien évoluant entre un nombre fini d’états, chacun générant des observations suivant une loi qui lui est propre. L’objectif du projet était de valider numériquement une méthode permettant d’estimer la loi de chaque état avec une vitesse de convergence distincte et optimale. Pour ce faire, plus de 300 simulations ont été réalisées sur le cluster, chacune prenant entre 15 minutes et 10h, pour un nombre d’observations variant entre 50000 et 10^7 et pour différentes variantes de l’algorithme.

En savoir plus...

Ces simulations ont permis de confirmer la capacité de la méthode à s’adapter à chaque état. En bonus, elles mettent en évidence une transition de phase entre un domaine où on n’arrive pas à retrouver les paramètres par manque d’observations et un domaine où les estimateurs convergent à leur vitesse asymptotique, qui sera l’occasion de travaux futurs.

Synthetic multidimensional gaussians for clustering with semidefinite programming

Martin Royer (LMO)

We analyze the clustering problem through a flexible probabilistic model that aims to identify an optimal partition on the sample X 1 , ..., X n. We perform exact clustering with high probability using a convex semidefinite estimator that interprets as a corrected, relaxed version of K-means. The estimator is analyzed through a non-asymptotic framework and showed to be optimal or near-optimal in recovering the partition. Furthermore, its performances are shown to be adaptive to the problem’s effective dimension, as well as to K the unknown number of groups in this partition. We illustrate the method’s performances in comparison to other classical clustering algorithms with numerical experiments on simulated data.

To read more...

Reference :

Royer M., Adaptive Clustering through Semidefinite Programming, Advances in Neural Information Processing Systems 30 (NIPS 2017), link.

Simulation de l’atténuation des ondes de détonation par les mousses aqueuses

Sylvain Faure (LMO), Jean-Michel Ghidaglia (CMLA)

L’usage d’une mousse aqueuse permet d’atténuer l’onde de choc initiée par la détonation d’un explosif. Ce pouvoir atténuateur se double d’une capacité à capturer les produits chimiques dangereux disséminés par l’explosion. L’atténuation des ondes de choc par des mousses aqueuses constitue un enjeu technologique important. Les nombreux travaux théoriques et expérimentaux n’ont pas permis jusqu’à présent d’aboutir à une expression analytique suffisamment simple ou à des abaques qui permettraient d’évaluer la pression comme une fonction de la distance et de la puissance de la charge pour des caractéristiques de mousses données. Dans ce contexte, la simulation numérique apparaît comme une piste pertinente pour répondre à ce besoin. Il reste que l’écoulement au sein d’une mousse aqueuse est complexe. Il s’effectue au sein d’un milieu composé de trois fluides (air, eau liquide et sa vapeur) et que de surcroît les changements de phases jouent un rôle important sans compter la géométrie fort complexe de la surface libre entre ces fluides. Les calculs réalisés ont pour objectif de parvenir à simuler de tels phénomènes.

En savoir plus...

Pour cela on s’appuie sur des modèles moyennés classiques pour les multi fluides afin de contourner la complexité géométrique locale en introduisant de nouvelles variables dont le taux volumique de présence de chaque fluide.

Références :

S. Faure, J.−M. Ghidaglia, Violent flows in aqueous foam I : Physical and numerical models, European Journal of Mechanics B/Fluids, Vol. 30, pp.341−359, 2011.

S. D’Alesio, F. Dias, S. Faure, J.−M. Ghidaglia, C. Labourdette, T. Pougeard−Dulimbert, A. Sollier Violent flows in aqueous foam II : Simulation platform and results, European Journal of Mechanics B/Fluids, Vol. 54, pp.105−124, 2015.

J. A. Redford, J.−M. Ghidaglia, S. Faure, Violent flows in aqueous foams III : physical multi−phase model comparison with aqueous foam shock tube experiments, Shock Waves, pp 1−22, 2018.

Algorithme EM pour l’estimation des paramètres de modèle de Markov cachés

Augustin Touron (LMO)

Les calculs effectués correspondent à des algorithmes EM codés en R pour estimer les paramètres de modèles de Markov caché pour modéliser des variables météo. On dispose des données sur 6 stations météo, et pour chaque station on estime un HMM à K états, avec K variant de 5 à 9, de façon à choisir a posteriori le nombre d’états avec un critère BIC. D’autre part, comme l’EM a malheureusement tendance à converger vers des maxima locaux de la vraisemblance, on le lance 10 fois (avec initialisation aléatoire à chaque fois) pour chaque couple (station, K), ce qui donne 6*5*10 = 300 algorithmes EM, donc 300 jobs. Chaque itération de l’algorithme EM est constituée de deux étapes : une étape E qui tourne en quelques secondes, et une étape M qui est en fait une optimisation (numérique dans notre cas car impossible de trouver une formule analytique) qui peut être plus longue.

En savoir plus...

Heureusement, le problème d’optimisation de l’étape M peut être scindé en K problèmes indépendants, qui peuvent donc être traités en parallèle. Donc lorsque K = 5 par exemple, les jobs correspondants auront le paramètre ppn=5. Le calcul s’arrête lorsque le gain en vraisemblance entre deux étapes successives de l’EM passe sous un certain seuil. Pour chaque job, le temps de calcul est de l’ordre de quelques heures à une journée, donc tout ceci serait irréalisable avec seulement une machine.

critère BIC en fonction du nombre d'état
critère BIC en fonction du nombre d’état
différentes log-vraisemblance obtenues pour un K donné, en fonction des différents initialisations aléatoires
différentes log-vraisemblance obtenues pour un K donné, en fonction des différents initialisations aléatoires
évolution de la log-vraisemblance au cours des itération de l'EM
évolution de la log-vraisemblance au cours des itération de l’EM

Numerical performance of Penalised Comparison to Overfitting for bandwidth selection in Kernel density estimation

Claire Lacour (LMO), Pascal Massart (LMO), Vincent Rivoirard (CEREMADE), Suzanne Varet (LMO)

In multivariate kernel density estimation, the bandwidth selection remains a challenge in terms of algorithmic performance and quality of the resulting estimation. A recently developped method, the Penalized Comparison to Overfitting (PCO), is compared to other usual bandwidth selection methods for multivariate and univariate kernel density estimation. In particular, the cross-validation and plug-in estimators are numerically investigated and compared to PCO. This study points out that the PCO can outperform the others classical methods without algorithmic additionnal cost.

En savoir plus...

Numerical performance of Penalized Comparison to Overfitting for multivariate kernel density estimation, Suzanne Varet (LMO), Claire Lacour (LMO), Vincent Rivoirard (CEREMADE) Pascal Massart (LMO), (paper in progress 2018)

Ratio with the minimal ISE in 1D

Ratio with the minimal ISE in 1D
Ratio with the minimal ISE in 1D

Ratio with the minimal ISE in 2D with diagonal bandwidth

Ratio with the minimal ISE in 2D with diagonal bandwidth
Ratio with the minimal ISE in 2D with diagonal bandwidth

Ratio with the minimal ISE in 2D with full bandwidth

Ratio with the minimal ISE in 2D with full bandwidth
Ratio with the minimal ISE in 2D with full bandwidth
tests

Crowd motion from the granular standpoint

Sylvain Faure (LMO), Bertrand Maury (LMO)

We consider here crowd motion from the standpoint of granular media, and we investigate how theoret-ical and numerical tools in nonsmooth analysis can help better understanding some paradoxical fea-tures. We shall be especially interested in evacuation processes, jams, and we will detail how the granu-lar nature of the flow helps to understand two well-known phenomena, the so-called “Faster is Slower” effect, and “Stop-and-Go” waves.

To read more...

S. Faure, B. Maury, Crowd motion from the granular standpoint, Math. Models Methods Appl. Sci. 25, 463, 2015

A Time-continuous Compartment Model for Building Evacuation

Rémi Bachimont, Jacques Angelé, Sylvain Faure (LMO), Bertrand Maury (LMO)

We propose here a general framework to estimate global evacuation times of complex buildings, and to dynamically investigate the dependence of this evacuation time upon various factors. This model relies on a network, which is in some way the skeleton of the building, the nodes of which are the bottlenecks or exit doors. Those nodes are connected by edges which correspond to portions of egress paths located within a given room. Such models have been proposed in a discrete setting. The model we propose takes the form of a continuous evolution equation of the differential type.

To read more...

It relies on a limited number of variables, namely the number of people gathered upstream each node, together with the number of people on their way from a node to the next one. The basic parameters of the model are the capacities of doors, and the time needed to walk from one node to the next one. In spite of its macroscopic character (the mo-tions of pedestrians are not described individually), this approach allows to account for complex and nonlinear effects such as capacity drop at bottlenecks, congestion induced speed reduction, and possibly some dispersion in evacuees behaviors.

Reference :

B. Maury, S. Faure, J. Angele and R. Bachimont, A Time−continuous Compartment Model for Building Evacuation, European Symposium on Fire Safety Science, 2018

Numerical treatment of the nonconservative product in a multiscale fluid model for plasmas in thermal nonequilibrium

Sylvain Faure (LMO), Benjamin Graille (LMO), Thierry Magin (VKI), Marc Massot (CMAP), Quentin Wargnier (CMAP)

This contribution deals with the modeling of collisional multicomponent magnetized plasmas in thermal and chemical nonequilibrium aiming at simulating and predicting magnetic reconnections in the chromosphere of the sun. We focus on the numerical simulation of a simplified fluid model in order to properly investigate the influence on shock solutions of a nonconservative product present in the electron energy equation. Then, we derive jump conditions based on travelling wave solutions and propose an original numerical treatment in order to avoid non-physical shocks for the solution, that remains valid in the case of coarse-resolution simulations.

To read more...

A key element for the numerical scheme proposed is the presence of diffusion in the electron variables, consistent with the physically-sound scaling used in the model developed by Graille et al. following a multiscale Chapman-Enskog expansion method. The numerical strategy is eventually assessed in the framework of a solar physics test case. The computational method is able to capture the travelling wave solutions in both the highly- and coarsely-resolved cases.

Reference :

Q. Wargnier, S. Faure, B. Graille, T. Magin, M. Massot, Numerical treatment of the non−conservative product in a multiscale fluid model for plasmas in thermal non−equilibrium : application to solar physics, submitted, 2018

Clustering electricity consumers using high-dimensional regression mixture models.

Emilie Devijver (LMO), Yannig Goude (EDF) et Jean-Michel Poggi (LMO)

Massive informations about individual (household, small and medium enterprise) consumption are now provided with new metering technologies and the smart grid. Two major exploitations of these data are load profiling and forecasting at different scales on the grid. Customer segmentation based on load classification is a natural approach for these purposes. We propose here a new methodology based on mixture of high-dimensional regression models.

To read more...

The novelty of our approach is that we focus on uncovering classes or clusters corresponding to different regression models. As a consequence, these classes could then be exploited for profiling as well as forecasting in each class or for bottom-up forecasts in a unified view. We consider a real dataset of Irish individual consumers of 4,225 meters, each with 48 half-hourly meter reads per day over 1 year : from 1st January 2010 up to 31st December 2010, to demonstrate the feasibility of our approach. A sample of those data illustrates the complexity of the problem (very high variability).

Reference : Devijver, E., Goude, Y. and Poggi, J.-M.
Clustering electricity consumers using high-dimensional regression mixture models.
Preprint available here : https://arxiv.org/abs/1507.00167