02/12/25 – Soutenance de Noé Lebreton : Modélisation prédictive ensembliste à l’aide d’approches fonctionnelles

Soutenance homme

Soutenance prévue le mardi 2 décembre 2025 à 14h00
Lieu : Université Lumière Lyon 2, Campus Portes des Alpes, Bâtiment H, 5 avenue Pierre Mendès-France 69500 Bron
Salle : H.127

Mots-clés : Processus gaussien, Pattern matching, Données fonctionnelles

Résumé : Cette thèse s’inscrit dans le domaine de la prédiction de séries temporelles multivariées, avec pour objectif de proposer des méthodes capables de gérer à la fois la complexité et l’hétérogénéité propres à ces données, tout en répondant aux besoins
pratiques d’applications industrielles. Les approches traditionnelles, bien que largement utilisées, montrent souvent leurs limites lorsqu’il s’agit de traiter un grand nombre de séries, ce qui peut réduire la pertinence des prédictions. Les travaux
réalisés visent ainsi à développer de nouvelles approches de prédiction qui exploitent efficacement la richesse du cadre multivarié, tout en maintenant une certaine robustesse dans des contextes appliqués. La contribution principale de cette
thèse repose sur le développement de la méthode $WNN_{multi}$, une approche de prédiction basée sur la recherche de motifs ( extit{pattern matching}) et la sélection des plus proches voisins. Cette méthode se distingue par sa capacité à traiter l’hétérogénéité des séries temporelles multivariées et à réaliser des prédictions à horizons multiples de manière naturelle. Les expérimentations menées sur plusieurs jeux de données réels ont montré que cette méthode obtenait des résultats similaires, voire supérieurs, à ceux de méthodes concurrentes. Deux axes d’amélioration ont ensuite été explorés. Le premier concerne la phase de sélection des voisins, où des distances alternatives à la distance euclidienne ont été introduites. Ces distances, issues notamment de l’analyse de données fonctionnelles et de l’alignement de fonctions, permettent de distinguer les variations liées à l’amplitude et à la phase, offrant ainsi un cadre plus riche pour la comparaison des séries. Les résultats obtenus sur des données simulées ont confirmé l’intérêt de ces distances pour améliorer la
pertinence des voisins sélectionnés et, par conséquent, la qualité des prédictions. Le second axe porte sur la phase de prédiction. L’approche initiale, fondée sur une moyenne pondérée, a été enrichie par des méthodes hybrides telles que le modèle $NN_{XGB}$, basé sur XGBoost, et le modèle $NN_{MAGMA}$, fondé sur des processus gaussiens multitâches. Bien que ces approches introduisent une plus grande sophistication, elles n’ont pas permis d’améliorer significativement les performances sur les jeux de données réels, soulignant l’efficacité et la robustesse du schéma de prédiction initial de $WNN_{multi}$. Pour finir, un cas d’application a été étudié dans le cadre des problématiques rencontrées dans l’entreprise Data-Prisme, qui a cofinancé cette thèse, afin d’évaluer la méthode dans un environnement industriel marqué par une forte hétérogénéité des données. Des échantillons ont été construits selon des règles spécifiques (notamment basées sur la fréquence des ventes) afin de mieux contrôler la complexité des données et d’étudier l’effet des tailles d’échantillons pour la prédiction. Les résultats ont montré que l’augmentation de la taille des échantillons ne conduit pas forcément à des gains significatifs, tout en alourdissant la complexité. Par ailleurs, la comparaison entre $WNN_{multi}$ et le modèle actuellement utilisé chez Data-Prisme a confirmé la pertinence de l’approche développée, qui offre des améliorations notables sur différents scénarios pratiques. Enfin, nous proposons quelques directions futures pour surmonter les limites du modèle proposé dans cette thèse.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *