Modélisation multivariée de différentes variables météorologiques : température, précipitation, rayonnement et vent

Thèse CIFRE en cours
Auteur : Augustin TOURON
Date de soutenance : 2018, à préciser
Directrice de thèse : Elisabeth GASSIAT
Encadrant industriel : Thi-Thu HOANG (EDF)

Résumé :

Dans le contexte de mix énergétique actuel, la gestion des productions photovoltaïques et éoliennes devient un enjeu de plus en plus important à côté d’autres types de production classique comme les productions nucléaire, thermique et hydraulique. Afin d’assurer l’équilibre offre-demande sur tous les horizons, la consommation est également étudiée et modélisée. La consommation électrique en France est météo-sensible : on observe par exemple une augmentation en moyenne de 2 300MW par degré perdu en hiver. Ainsi, la température est une des variables importantes dans le modèle de prévision de consommation. Actuellement, la gestion de différents moyens de production et la prévision de consommation sont faites indépendamment les uns et les autres. Cependant la corrélation entre ces variables existe bel et bien : par exemple quand il fait très chaud, la consommation, liée à l’utilisation de la climatisation, augmente et la production photovoltaïque a tendance à augmenter également ; quand il fait froid, la consommation, liée à l’utilisation du chauffage, augmente et la production éolienne a tendance à augmenter. La corrélation entre la consommation et différents moyens de production peut être traduite par la corrélation entre les aléas physiques : température, précipitation, vent et rayonnement.

Le fait d’avoir des aléas cohérents entre eux devient un besoin primordial pas seulement pour EDF mais aussi pour d’autres acteurs du secteur énergétique. Dernièrement, à la demande de RTE, Météo France a établi un référentiel climatique basé sur 100 scénarios (200 dans la prochaine version de ce référentiel) issus d’un modèle atmosphérique. L’objectif de ce travail était de fournir une très longue série chronologique représentative du climat actuel pour plusieurs paramètres météorologiques cohérents entre eux à l’aide du modèle ARPEGE-Climat. Ce référentiel a été mis à disposition des acteurs de l’Energie, et est d’ores et déjà utilisé par RTE dans son Bilan Prévisionnel. Cependant la solution proposée par Météo-France présente différents inconvénients. Nous en citons deux ici : premièrement le fait de simuler un climat constant en visant une année cible ne traite pas complètement l’ensemble des sources de variabilité, deuxièmement le fait de corriger les sorties du modèle par rapport aux observations indépendamment pour chaque variable ne garantit pas la conservation de la cohérence.

Le principe des modèles climatiques comme ARPEGE-climat est de reproduire le comportement de l’atmosphère et les interactions avec d’autres composantes du système (végétation, océan,…) à une maille globale et pour une longue période. Ils sont faits pour représenter les circulations et les interactions physiques à l’échelle planétaire et anticiper les conséquences des modifications du bilan radiatif induites par les activités humaines, mais pas pour reproduire fidèlement l’évolution des conditions locales. Il est donc nécessaire d’appliquer des méthodes de descente d’échelle (« downscaling ») afin de reproduire la variabilité à petite échelle. Les générateurs stochastiques, qui peuvent générer des variables météorologiques au niveau local, sont de puissants outils statistiques de downscaling.

Cette thèse vise à développer un modèle stochastique multivarié (au pas journalier) pour répondre à la fois au besoin de cohérence des variables atmosphériques et à celui de la descente d’échelle. Dans la littérature, les modèles stochastiques peuvent être classés dans quatre catégories : méthodes de ré-échantillonnage, méthode Box et Jenkins, processus ponctuels et modèles hiérarchiques. L’approche envisagée pour cette thèse se range dans la dernière catégorie et est basée sur l’utilisation d’une chaine de Markov cachée (de Castro, Gassiat, Le Corff 2015, et de Castro, Gassiat, Lacour 2015) afin de modéliser simultanément différentes variables météorologiques : température, précipitation, rayonnement et vent ; le type de temps étant considéré comme une variable latente ou observée selon la manière de le traiter dans le modèle. Le type de temps est observé quand il est extrait d’une classification des états atmosphériques. Pour rappel, dans ce cas, un type de temps est caractérisé par un état récurrent de l’atmosphère associé à des structures préférentielles des variables météorologiques (hauteur du géopotentiel à 500hPa, direction et force de vent, température, nébulosité, pluie,…). Les types de temps sont des états quasi-stationnaires à l’échelle synoptique de la circulation atmosphérique sous nos latitudes et dépendent plus fortement des conditions locales (échelle de la France par exemple) que les régimes de temps qui sont leurs équivalents à très grande échelle (Europe de l’ouest- Atlantique nord). Le type de temps est latent quand il est déterminé par une classification des variables météorologiques considérées ou quand il est considéré comme une variable cachée dans la chaine de Markov cachée. L’approche de chaine de Markov cachée pour des variables météorologiques en utilisant des types de temps n’est pas une idée nouvelle (voir Alliot et al., 2015 pour des références). Cependant ce genre de modèle reste toujours un challenge pour les chercheurs car différentes difficultés de modélisation peuvent être rencontrées à cause de la complexité des variables :

• Définition du type de temps : on a le choix entre le considérer comme une classification des variables considérées localement à une station dans le modèle stochastique (température, précipitation, vent et rayonnement) et le considérer comme une classification des variables atmosphériques à une échelle plus grande (par exemple les types de temps en France : conditions anticycloniques, flux d’Ouest perturbé, flux de Sud à Sud-Ouest, flux de Nord à Nord-Ouest, retour d’Est). Deux principales difficultés sont rencontrées, (1) le choix de l’espace des phases dans lequel se placer pour réaliser la classification des types de temps et (2) la détermination du nombre optimal de classes.
• Non stationnarité des variables : les variables météorologiques sont souvent non stationnaires avec une saisonnalité marquée, ou une tendance (la température) ou une variabilité inter-annuelle. Une chaine de Markov homogène ne nous permet pas de prendre en compte cette non stationnarité. Une chaine de Markov cachée non-homogène pourrait être une solution pour ce problème (Carey-Smith et al., 2014)
• Longues vagues de chaleur ou longues périodes de sécheresse : une autre limitation d’un modèle de Markov homogène est que le temps de séjour suit une loi géométrique, qui ne peut pas reproduire de longues vagues de chaleur ou de longues périodes de sécheresse (Rasko et al., 1991)
• Structure de dépendance entre les variables : la précipitation est une variable compliquée à modéliser en elle-même, et cette difficulté sera encore accentuée par la présence d’autres variables. La distribution jointe doit être assez flexible pour capturer différentes caractéristiques des relations entre les variables mais en même temps elle ne devra pas être trop compliquée pour qu’on puisse l’interpréter.
• Comportement des extrêmes : la modélisation des extrêmes n’est pas un point fort de l’approche par chaine de Markov. Notre objectif principal est d’avoir des scénarios conjoints qui représentent bien les valeurs normales. Mais il serait bien d’avoir également des scénarios qui représentent bien les extrêmes, car les extrêmes sont importants pour notre vision des risques. Il faudrait alors trouver un moyen de modéliser, en plus des valeurs normales, les extrêmes et ce de manière multivariée.

Voir en ligne : http://www.theses.fr/s163532

Impact du Vieillissement d’un véhicule sur la non stabilité des flux de rechange dans le temps

Thèse CIFRE en cours
Auteur : Florence DUCROS
Date de soutenance : 2018, à préciser
Directeurs de thèse : Gilles CELEUX et Patrick PAMPHILE
Industriel : Nexter Systems

Résumé 

Dans le cadre de contrat forfaitaire, l’industriel doit être en mesure de pouvoir dimensionner et chiffrer les besoins pendant sa période d’engagement. Il doit alors déterminer le coût total d’acquisition : coût global de possession (utilisation et maintenance) ainsi que les coûts en amont (conception, fabrication) et en aval (le démantèlement) afin de déterminer la viabilité de sa réponse à un appel d’offre.
Dans ce contexte, la maitrise des phénomènes de vieillissement est incontournable pour être capable de prendre des engagements sur des durées importantes. La capacité de maitriser ces phénomènes doit permettre à l’industriel de proposer des offres de soutien compétitives tout en s’assurant de leurs rentabilités économiques sur la durée totale des contrats.
La complexité des systèmes, des technologies, des contextes opérationnels font que les phénomènes de vieillissement sont difficiles à appréhender. L’étude des phénomènes de vieillissement nécessite une approche basée sur des modèles statistiques permettant d’évaluer les évolutions dans le temps des besoins de maintenance en termes de pièces de rechange et des flux logistiques associés.
Ces modèles statistiques doivent permettre à l’industriel de se projeter dans le temps en ayant une vision de l’évolution des coûts de ravitaillement liée au vieillissement des matériels au fur et à mesure du déroulement des contrats de maintenance.

Mots-clés : Analyse statistique multivariée, classification semi-supervisée, apprentissage, approche multi-facteurs, méthodes bayésiennes, modèle prédictif, modèles fiabilistes, modèles de vieillissements, Weibull, Bertholon.

Voir en ligne : http://www.theses.fr/s159809

Estimation spatio-temporelle généralisée de la consommation électrique

Thèse CIFRE en cours
Auteur : Jiali MEI
Date de soutenance : 2017, à préciser
Directeur de thèse : Yohann DE CASTRO
Encadrant industriel : Georges HEBRAIL (EDF)

Voir en ligne : http://www.theses.fr/s159824

Estimation et sélection pour les modèles additifs et application à la prévision de la consommation électrique

Thèse CIFRE
Auteur : Vincent THOUVENOT
Date de soutenance : 17 décembre 2015
Directeurs de thèse : Anestis ANTONIADIS et Jean-Michel POGGI
Encadrant industriel : Yannig GOUDE (EDF)

Résumé

L’électricité ne se stockant pas aisément, EDF a besoin d’outils de prévision de consommation et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et d’estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles technologies, EDF peut étudier les mailles locales du réseau électrique, ce qui amène à un nombre important de séries chronologiques à étudier. De plus, avec les changements d’habitude de consommation et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous adoptons ici une méthode semi-paramétrique à base de modèles additifs. L’objectif de ce travail est de présenter des procédures automatiques de sélection et d’estimation de composantes d’un modèle additif avec des estimateurs en plusieurs étapes. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en sélection, et des P-Splines, qui sont consistantes en estimation. Nos résultats théoriques de consistance en sélection et en estimation sont obtenus sans nécessiter l’hypothèse classique que les normes des composantes non nulles du modèle additif soient bornées par une constante non nulle. En effet, nous autorisons cette norme à pouvoir converger vers 0 à une certaine vitesse. Les procédures sont illustrées sur des applications pratiques de prévision de consommation électrique nationale et locale.

Mots-clés : Statistique ; Modèle additif ; Méthode pénalisée ; Estimateurs en plusieurs étapes ; Prévision de consommation électrique ; Analyse de régression ; Électricité – Consommation ; Sélection de variables ; P-Splines.

Voir en ligne : https://tel.archives-ouvertes.fr/tel-01280289

Détection automatique d’anomalies sur fonds complexes pour des images ou séquences d’images

Thèse CIFRE
Auteur : Solenne THIVIN
Date de soutenance : 16 décembre 2015
Directeur de thèse : Erwan LE PENNEC
Encadrant industriel : Michel PRENAT (Thales Optronique)

Résumé

L’objectif principal de ces travaux de thèse a été la mise en place d’un algorithme de détection de cibles sous-résolues pour des images infra-rouges de ciel. Pour cela, nous avons d’abord cherché à modéliser les images réelles dont nous disposions. Après une étude de ces images, nous avons proposé plusieurs modèles gaussiens prenant en compte la covariance spatiale. Dans ces modèles, nous avons supposé que les images pouvaient ˆetre segmentées en zones stationnaires. Dans chaque zone, nous avons supposé une structure forte sur la matrice de covariance (comme les modèles auto-régressifs en deux dimensions par exemple).
Il a ensuite fallu choisir entre ces modèles. Pour cela, nous avons appliqué une méthode de sélection de modèles par critère de vraisemblance pénalisée introduite par Birgé et Massart. Nous avons obtenu comme résultats théoriques une inégalité oracle qui a permis de démontrer les propriétés statistiques du modèle choisi.
Une fois le modèle sélectionné, nous avons pu bâtir un test de détection. Nous nous sommes inspirés de la théorie de Neyman-Pearson et du test du rapport de vraisemblance généralisé. Notre contrainte principale a été le respect du taux de fausses alarmes par image. Pour le garantir, nous avons appris le comportement du test sur les images réelles pour en déduire le seuil à appliquer. Nous avons ensuite remarqué que le comportement de ce test variait fortement selon la texture de l’image : image de ciel bleu uniforme, image de nuage très texturé, etc. Après avoir caractérisé les différentes textures rencontrées avec les coefficients de scattering de Stéphane Mallat, nous avons décidé de classer ces textures. Le seuil appliqué lors de la détection a alors été adapté à la texture locale du fond.
Nous avons finalement mesuré les performances de cet algorithme sur des images réelles et nous les avons comparées à d’autres méthodes de détection.

Mots-clés : Détection ; Covariance spatiale ; Sélection de modèles ; Apprentissage ; Classification non supervisée.

Voir en ligne : https://tel.archives-ouvertes.fr/tel-01296615

Contributions à l’agrégation séquentielle robuste d’experts : Travaux sur l’erreur d’approximation et la prévision en loi. Applications à la prévision pour les marchés de l’énergie.

Thèse CIFRE
Auteur : Pierre GAILLARD
Date de soutenance : 06 juillet 2015
Directeur de thèse : Gilles STOLTZ
Encadrant industriel : Yannig GOUDE (EDF)

Résumé

Nous nous intéressons à prévoir séquentiellement une suite arbitraire d’observations. À chaque instant, des experts nous proposent des prévisions de la prochaine observation. Nous formons alors notre prévision en mélangeant celles des experts. C’est le cadre de l’agrégation séquentielle d’experts. L’objectif est d’assurer un faible regret cumulé. En d’autres mots, nous souhaitons que notre perte cumulée ne dépasse pas trop celle du meilleur expert sur le long terme. Nous cherchons des garanties très robustes : aucune hypothèse stochastique sur la suite d’observations à prévoir n’est faite. Celle-ci est supposée arbitraire et nous souhaitons des garanties qui soient vérifiées quoi qu’il arrive. Un premier objectif de ce travail est l’amélioration de la performance des prévisions. Plusieurs possibilités sont proposées. Un exemple est la création d’algorithmes adaptatifs qui cherchent à s’adapter automatiquement à la difficulté de la suite à prévoir. Un autre repose sur la création de nouveaux experts à inclure au mélange pour apporter de la diversité dans l’ensemble d’experts. Un deuxième objectif de la thèse est d’assortir les prévisions d’une mesure d’incertitude, voire de prévoir des lois. Les applications pratiques sont nombreuses. En effet, très peu d’hypothèses sont faites sur les données. Le côté séquentiel permet entre autres de traiter de grands ensembles de données. Nous considérons dans cette thèse divers jeux de données du monde de l’énergie (consommation électrique, prix de l’électricité,...) pour montrer l’universalité de l’approche.

Mots-clés : Suites individuelles ; Apprentissage séquentiel ; Séries temporelles ; Consommation électrique ; Agrégation de prédicteurs ; Séries chronologiques ; Prévision, Théorie de la Statistique mathématique ; Électricité — Consommation.

Voir en ligne : https://tel.archives-ouvertes.fr/tel-01250027

Modélisation probabiliste des courbes S-N

Thèse CIFRE
Auteur : Rémy FOUCHEREAU
Date de soutenance : 01 avril 2014
Directeurs de thèse : Gilles CELEUX et Patrick PAMPHILE
Encadrant industriel : Catherine DUVEAU (SAFRAN-SNECMA)

Résumé

La courbe S-N est le moyen le plus courant d’analyse et de prédiction de la durée de vie d’un matériau, d’un composant ou d’une structure. Cependant, les modèles standards, qu’ils soient basés sur la théorie de la rupture ou sur des modèles probabilistes n’ajustent pas la courbe dans la totalité sans information sur la microstructure du matériau. Or, cette information provient d’analyses fractographiques souvent coûteuses et rarement disponibles dans le cadre d’une production industrielle. D’un autre côté, les modèles statistiques ne proposent pas d’interprétation matériau et ne peuvent pas être utilisées pour réaliser des prévisions. Les résultats d’un test de fatigue sont par ailleurs très dispersés, plus particulièrement pour les fortes durées de vie, lieu d’apparition d’un phénomène de bi-modalité. Ces constats sont la raison de la proposition d’un nouveau modèle probabiliste. Celui-ci est composé d’un modèle de mélange spécifique, prenant en compte l’approche apportée par la mécanique de la rupture sans nécessiter de d’information supplémentaire sur la microstructure du matériau. Il utilise le fait que la fatigue peut être vue comme la somme d’un amorçage de fissure suivi de sa propagation. Les paramètres du modèle sont estimés à l’aide d’un algorithme EM, où la phase de maximisation combine une méthode d’optimisation de Newton-Raphson et une intégration de type Monte-Carlo. Le modèle « amorçage-propagation » offre une représentation parcimonieuse des courbes S−N dont les paramètres peuvent être facilement interprétés par des ingénieurs matériau. Ce modèle a été testé à l’aide de simulations et appliqué à des données réelles (données sur l’Inconel 718). Ceci nous a permis de mettre en évidence le bon ajustement du modèle à nos données, et ce, pour toutes les déformations disponibles.

Mots-clés : Courbes S-N ; Modèles de mélange ; Fiabilité

Voir en ligne : https://tel.archives-ouvertes.fr/tel-00990770

Contributions à la localisation intra-muros. De la modélisation à la calibration théorique et pratique d’estimateurs

Thèse CIFRE
Auteur : Thierry DUMONT
Date de soutenance : 13 décembre 2012
Directeur de thèse : Elisabeth GASSIAT
Encadrant industriel : Loïc GUILLEMARD (ID Services)

Résumé

Préfigurant la prochaine grande étape dans le domaine de la navigation, la géolocalisation intra-muros est un domaine de recherche très actif depuis quelques années. Alors que la géolocalisation est entrée dans le quotidien de nombreux professionnels et particuliers avec, notamment, le guidage routier assisté, les besoins d’étendre les applications à l’intérieur se font de plus en plus pressants. Cependant, les systèmes existants se heurtent à des contraintes techniques bien supérieures à celles rencontrées à l’extérieur, la faute, notamment, à la propagation chaotique des ondes électromagnétiques dans les environnements confinés et inhomogènes. Nous proposons dans ce manuscrit une approche statistique du problème de géolocalisation d’un mobile à l’intérieur d’un bâtiment utilisant les ondes WiFi environnantes. Ce manuscrit s’articule autour de deux questions centrales : celle de la détermination des cartes de propagation des ondes WiFi dans un bâtiment donné et celle de la construction d’estimateurs des positions du mobile à l’aide de ces cartes de propagation. Le cadre statistique utilisé dans cette thèse afin de répondre à ces questions est celui des modèles de Markov cachés. Nous proposons notamment, dans un cadre paramétrique, une méthode d’inférence permettant l’estimation en ligne des cartes de propagation, sur la base des informations relevées par le mobile. Dans un cadre non-paramétrique, nous avons étudié la possibilité d’estimer les cartes de propagation considérées comme simple fonction régulière sur l’environnement à géolocaliser. Nos résultats sur l’estimation non paramétrique dans les modèles de Markov cachés permettent d’exhiber un estimateur des fonctions de propagation dont la consistance est établie dans un cadre général. La dernière partie du manuscrit porte sur l’estimation de l’arbre de contextes dans les modèles de Markov cachés à longueur variable.

Mots-clés : Localisation intra-muros ; WiFi ; Modèles de Markov cachés ; Inférence statistique ; Estimation non-paramétrique ; Estimation en ligne ; Services basés sur la localisation ; IEEE 802.11 (norme) ; Processus de Markov ; Statistique non paramétrique.

Voir en ligne : https://tel.archives-ouvertes.fr/tel-00795878

Inversion probabiliste bayésienne en analyse d’incertitude

Thèse CIFRE
Auteur : Shuai FU
Date de soutenance : 14 décembre 2012
Directeur de thèse : Gilles CELEUX
Encadrants industriels : Nicolas BOUSQUET et Mathieu COUPLET (EDF)

Résumé 

Ce travail de recherche propose une solution aux problèmes inverses probabilistes avec des outils de la statistique bayésienne. Le problème inverse considéré est d’estimer la distribution d’une variable aléatoire non observée X à partir d’observations bruitées Y suivant un modèle physique coûteux H. En général, de tels problèmes inverses sont rencontrés dans le traitement des incertitudes. Le cadre bayésien nous permet de prendre en compte les connaissances préalables d’experts en particulier lorsque peu de données sont disponibles. Un algorithme de Metropolis-Hastings-within-Gibbs est proposé pour approcher la distribution a posteriori des paramètres de X avec un processus d’augmentation des données. A cause d’un nombre élevé d’appels, la fonction coûteuse H est remplacée par un émulateur de krigeage (métamodèle). Cette approche implique plusieurs erreurs de natures différentes et, dans ce travail, nous nous attachons à estimer et réduire l’impact de ces erreurs. Le critère DAC a été proposé pour évaluer la pertinence du plan d’expérience (design) et le choix de la loi apriori, en tenant compte des observations. Une autre contribution est la construction du design adaptatif adapté à notre objectif particulier dans le cadre bayésien. La méthodologie principale présentée dans ce travail a été appliquée à un cas d’étude en ingénierie hydraulique.

Mots-clés : Problème inverse ; Inférence bayésienne ; Expert industriel ; Modèle de Markov ; Krigeage ; Erreur d’évaluation ; Conflit entre données et a priori ; Plans d’expérience adaptatifs

Voir en ligne : https://tel.archives-ouvertes.fr/tel-00766341