24/11/25 – Soutenance de thèse de Simon Weinberger : Apprentissage de préférences utilisateur par données fonctionnelles temporelles

Soutenance homme

Soutenance prévue le lundi 24 novembre 2025 à 14h00
Lieu : Université Lumière Lyon 2 4 bis rue de l’Université 69007 Lyon
Salle : Léonie Villard

Mots-clés : Apprentissage automatique, Données fonctionelles, Apprentissage par renforcement

Résumé : On s’intéresse au contrôle automatique de lunettes équipées de verres électrochromiques, dont la teinte peut être contrôlée à volonté. Proposer le même mode de contrôle à tous les utilisateurs est problématique; à conditions égales, deux personnes différentes pourraient préférer des teintes distinctes. Ainsi, on développe de méthodes permettant de personnaliser le mode de contrôle de teinte, en adoptant trois approches. La première approche vise à reproduire le comportement observé en
reformulant le problème industriel comme un problème de régression ordinale (supervisée) avec une covariable fonctionnelle. Nous avons étudié l’impact de la représentation fonctionnelle sur les performances du modèle avec des bases
d’ondelettes et de B-splines, ainsi que des techniques de régularisation (Weinberger, et. al., 2025a). Utiliser l’ALS fonctionnel plutôt que l’ALS instantané permet d’obtenir des prédictions avec une précision supérieure de 10% ; on obtient ainsi un meilleur modèle sans ajouter de capteurs. Hélas, cette nécessité de données labellisées et l’accès à celles-ci pourraient être très limités. La deuxième façon d’aborder ce problème est d’adopter le point de vue de l’apprentissage par renforcement (« Reinforcement Learning », RL) : en suivant une certaine stratégie de contrôle de la teinte, on recueille des mesures de luminosité (état), selon lesquelles on propose une teinte (action) et ensuite, on observe éventuellement une réaction (récompense). La question de la personnalisation du mode de contrôle de la teinte revient à modifier ce contrôle pour
réduire les interactions de l’utilisateur avec ses lunettes, ce qui constitue un problème de RL. Nous avons introduit une famille de politiques prenants des actions sur un ensemble fini et ordonné, que l’on a appelées politiques ordinales, dont
nous avons étudié les conditions de stabilité et implémenté des méthodes de gradient de politique adaptées à ce cadre (Weinberger, et. al., 2025b). En théorie, cette approche permet d’apprendre à partir de données issues du contrôle hybride.
Pour tester cette méthode dans des situations proches de la réalité, nous avons mené une étude avec de vrais utilisateurs et des prototypes en conditions contrôlées. Cette approche s’est révélée efficace : à mesure que le mode de contrôle de la
teinte était actualisé, le nombre d’interactions utilisateur diminuait. Ce faisant, nous considérons la nature ordinale de la teinte ainsi que le mode de collecte des données. Cette technique permet d’ajuster dynamiquement, au niveau de l’utilisateur,
le contrôle classique de la teinte, en le personnalisant selon l’usage réel du dispositif électrochromique en mode hybride.
Néanmoins, nous avons utilisé l’ALS instantané pour ces développements, et non pas l’ALS sur fenêtre temporelle. La troisième et dernière approche que nous avons étudiée vise à répondre aux trois particularités simultanément. L’objectif est de contrôler la teinte via un modèle de régression ordinale avec covariables fonctionnelles, dont les paramètres s’adaptent au fur et à mesure que l’utilisateur porte ses lunettes, en mode hybride (Weinberger, et. al., 2025c). À notre connaissance, dans la littérature en RL, l’usage d’un espace d’états fonctionnel n’a jamais été considéré ; de même, dans la littérature en analyse de données fonctionnelles, les problèmes de RL n’ont jamais été formulés. Nous proposons des familles de politiques prenants des actions à partir d’états fonctionnels, en adaptant des modèles de régression fonction-vers-scalaire. En outre, nous prouvons que les résultats théoriques permettant l’utilisation de l’algorithme Trust Region Policy Optimization (TRPO) restent valides dans ce cadre fonctionnel. Enfin, nous proposons des algorithmes pratiques mettant en œuvre les mises à
jour fondées sur ces développements théoriques.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *