Les progrès de l’intelligence artificielle (IA) offrent de nouvelles possibilités pour traiter les problèmes de routage des réseaux. Toutefois, le manque de données d’apprentissage actualisées, la lenteur de la convergence et la faible robustesse due à l’évolution dynamique de la topologie du réseau rendent ces systèmes de routage basés sur l’IA inefficaces. Pour résoudre ce problème, l’apprentissage par renforcement (RL) a été introduit pour concevoir des protocoles de routage de réseau plus flexibles et plus robustes. Toutefois, la quantité de données (
i
. c’est-à-dire l’espace des actions d’état) partagé entre les agents, dans une configuration d’apprentissage par renforcement multi-agents (MARL), peut consommer la bande passante du réseau et ralentir le processus d’apprentissage. En outre, la malédiction de la dimensionnalité de l’apprentissage par renforcement englobe la croissance exponentielle de l’espace discret des actions d’état, ce qui limite ses avantages potentiels. Dans cet article, nous présentons une nouvelle approche combinant l’apprentissage fédéré (FL) et l’apprentissage par renforcement profond (D RL) afin d’assurer un routage efficace du réseau dans un environnement sans fil. Tout d’abord, nous formalisons le problème du routage de réseau comme un problème d’apprentissage par renforcement, où plusieurs agents géographiquement distribués forment le modèle de politique de manière entièrement distribuée. Ainsi, chaque agent peut rapidement obtenir la politique optimale qui maximise la récompense attendue cumulative, tout en préservant la confidentialité des données de chaque agent. Les résultats des expériences montrent que l’approche d’apprentissage par renforcement fédéré (FRL) que nous proposons est robuste et efficace.