Les réseaux déployés dans des environnements contestés disposent généralement de ressources limitées et sont confrontés à de nombreux problèmes de sécurité, notamment la fuite d’informations. L’ingénierie du trafic de multidiffusion, qui prend en compte les attaques par écoute, peut améliorer les performances du réseau tout en évitant le problème de la fuite d’informations. Dans cet article, nous abordons le problème de l’ingénierie du trafic de multidiffusion basée sur des protocoles de routage à l’état de lien en fonction du trafic offert tout en prenant en considération le problème de l’atténuation des attaques d’écoute clandestine. Nous présentons tout d’abord une formulation de programmation linéaire en nombres entiers (ILP) qui permet de trouver les poids optimaux des liens pour les protocoles de routage multicast basés sur l’arbre du plus court chemin (SPT) afin de minimiser le coût total du réseau. Le problème est NP-Hard et il est très difficile d’obtenir une solution en temps réel pour s’adapter à des demandes de trafic très dynamiques. Pour répondre à l’exigence de temps réel, nous concevons une solution d’apprentissage par renforcement multi-agents (MARL) au problème de l’optimisation des poids des liens afin d’obtenir un routage multicast efficace de manière distribuée. Dans notre conception, les agents collaborent et communiquent avec les autres dans la région locale et apprennent de leurs expériences pour déterminer la meilleure action afin de minimiser le coût global du réseau. La solution proposée est évaluée sur une simulation de différents profils de trafic et comparée aux poids de liaison conventionnels configurés manuellement et à une solution heuristique basée sur un algorithme génétique (GA). Les résultats expérimentaux montrent les avantages de nos solutions dans la réduction du coût du réseau et suggèrent le potentiel de l’utilisation de MARL dans la réalisation d’une ingénierie de trafic multicast efficace.