PPO : l’Algorithme qui Apprend aux Robots à Agir Seuls — Transcript

Découvrez le PPO, un algorithme d'apprentissage par renforcement qui permet aux robots d'agir seuls grâce à des réseaux de neurones et des mises à jour modérées.

Key Takeaways

  • Le Q-learning est une méthode simple avec convergence garantie mais limitée aux espaces d'état discrets.
  • Le PPO utilise des réseaux de neurones pour gérer des actions continues et des environnements complexes.
  • Le clipping dans PPO assure une mise à jour stable et évite les changements trop brusques de politique.
  • Le sim-to-real gap reste un défi majeur pour l'application réelle des algorithmes d'apprentissage par renforcement.
  • Les critères d'arrêt sont essentiels pour évaluer la performance et la convergence des algorithmes.

Summary

  • Introduction à l'apprentissage par renforcement et présentation de Sylvie, data scientist.
  • Explication du Q-learning : table Q, récompenses, exploration/exploitation, critères d'arrêt et avantages/inconvénients.
  • Exemples concrets d'application du Q-learning comme AlphaGo, robots Boston Dynamics et jeux Snake.
  • Présentation du PPO (Proximal Policy Optimization) comme méthode avancée pour les espaces d'état et actions continues.
  • Fonctionnement du PPO : réseau de neurones, clipping du ratio de politique, advantage, et sécurité des mises à jour.
  • Exemple d'application du PPO : main robotique résolvant un Rubik's Cube grâce à des milliards de simulations.
  • Critères d'arrêt du PPO : stabilisation des récompenses, budget de simulation, et seuil de divergence KL.
  • Avantages du PPO : gestion des actions continues, stabilité et prévention des mises à jour catastrophiques.
  • Inconvénients du PPO : forte exigence en simulation et problème du sim-to-real gap.
  • Conclusion et annonce de la prochaine vidéo sur les méthodes ensemblistes et les noyaux.

Full Transcript — Download SRT & Markdown

00:00
Speaker A
Bonjour à toi, bienvenue sur ma chaîne. Avant de commencer, laisse-moi me présenter. Je suis Sylvie, ingénieur statisticienne et data scientist. J'espère que tu vas bien. Si ça ne va pas, ça va aller. Et je t'assure qu'à la fin de cette vidéo, tu vas retrouver le sourire. Alors, à toute.
00:22
Speaker A
Aïe aïe aïe, j'aime cette partie. Les algorithmes d'apprentissage par renforcement. On n'est plus dans les fonctions machin machin, mais on est à l'action. On prend des actions, on reçoit des récompenses et des pénalités. Et ça, c'est une chose que j'adore vraiment.
00:39
Speaker A
Un agent prend des décisions dans un environnement, reçoit des récompenses et des pénalités et apprend à maximiser ses gains. Comme un enfant qui joue à un jeu vidéo, il essaie des choses, voit ce qui marche.
00:51
Speaker A
Le premier algo que je vous présente ici, c'est le Q-learning.
00:56
Speaker A
C'est quoi alors le Q-learning?
00:57
Speaker A
Le Q-learning construit une table associée à chaque paire situation, action possible, une valeur Q ou value Q.
01:47
Speaker A
La récompense totale espérée à long terme si on fait cette action maintenant. L'agent choisit toujours l'action avec la meilleure Q-value.
01:54
Speaker A
Un enfant qui apprend à jouer aux échecs, à chaque position, ça c'est l'état, il essaie différents coups, action.
02:03
Speaker A
Après des centaines de parties, il apprend que avancer ce pion depuis cette position rapporte généralement de bonnes récompenses. Sa fonction Q, c'est sa mémoire de la valeur de chaque coup selon la situation.
02:20
Speaker A
En pratique, AlphaGo a joué des millions de parties contre lui-même et a battu le champion du monde en 2016. Les robots de Boston Dynamics apprennent à marcher et récupérer leur équilibre. Les recommandations YouTube optimisent le temps de visionnage. Pas intéressant ça?
02:31
Speaker A
Un exemple tiré du quotidien, nous avons les jeux Snake Q-table.
02:36
Speaker A
Le serpent est dans cette configuration et tourne à gauche.
02:41
Speaker A
Ça c'est la punition.
02:42
Speaker A
Donc le Q est égal à -1.
02:43
Speaker A
Mais ici il avance et que la pomme est devant, on a un Q de +87 par exemple.
02:48
Speaker A
Après des milliers de parties, le serpent devient expert.
02:51
Speaker A
Hmm.
02:53
Speaker A
Quels sont donc les indicateurs utilisés pour évaluer cette méthode?
02:58
Speaker A
Nous avons l'équation de Bellman, qui est la règle de mise à jour de la Q-table.
03:03
Speaker A
Je vais vous l'expliquer simplement.
03:06
Speaker A
La nouvelle Q-value, qui est égale à la récompense immédiate plus la valeur de la meilleure action dans l'état suivant multiplié par le gamma.
03:14
Speaker A
C'est comme l'agent propage les récompenses futures vers les décisions actuelles.
03:20
Speaker A
Le gamma, qu'est-ce que c'est?
03:22
Speaker A
C'est le facteur de vision à long terme.
03:25
Speaker A
Si le gamma est égal à zéro, l'agent ne pense qu'à la prochaine récompense.
03:30
Speaker A
Mais si le gamma est égal à 0,99, il planifie très loin.
03:34
Speaker A
Nous avons ensuite l'epsilon.
03:37
Speaker A
C'est le taux d'exploration.
03:38
Speaker A
On commence à epsilon élevé, on explore.
03:42
Speaker A
Et on diminue progressivement.
03:45
Speaker A
C'est-à-dire, on exploite ce qu'on a appris.
03:47
Speaker A
Quels sont donc les critères d'arrêt de cette méthode?
03:50
Speaker A
Le premier critère, c'est la convergence de la Q-table.
03:54
Speaker A
Quand les valeurs Q ne changent plus de façon significative entre deux épisodes, l'algorithme a convergé.
04:01
Speaker A
Ensuite, nous avons le seuil de récompense atteint.
04:04
Speaker A
Si l'agent atteint en moyenne 90% du score maximum sur les 100 derniers épisodes, il est jugé suffisamment bon.
04:13
Speaker A
Un autre critère, c'est le nombre maximum d'épisodes, un plafond de sécurité qu'on impose.
04:18
Speaker A
Et qui est très intéressant.
04:20
Speaker A
Par exemple, 100, 200, 500.
04:22
Speaker A
Quels sont donc les avantages de cette méthode?
04:25
Speaker A
Le premier avantage, c'est qu'elle offre une convergence garantie mathématiquement.
04:31
Speaker A
Par exemple, sous certaines conditions, le Q-learning converge vers la politique optimale.
04:38
Speaker A
Elle n'a pas besoin de connaître les règles.
04:43
Speaker A
L'agent les découvre en jouant.
04:46
Speaker A
Et c'est ce qui fait que je l'adore beaucoup.
04:50
Speaker A
Toutefois, elle a des inconvénients.
04:53
Speaker A
Elle ne passe pas à l'échelle.
04:57
Speaker A
La table est ingérable si l'espace d'état est trop grand.
05:01
Speaker A
Elle ne permet pas d'émettre des actions continues.
05:04
Speaker A
Par exemple, pour tourner un volant de -15 degrés à +15 degrés, ce n'est pas possible.
05:09
Speaker A
Il faut donc une autre méthode qu'on appelle le PPO.
05:14
Speaker A
Le PPO ou Proximal Policy Optimization, c'est le renforcement des problèmes complexes.
05:20
Speaker A
C'est quoi en réalité?
05:22
Speaker A
Le PPO remplace la table par un réseau de neurones qui apprend directement quelle action faire dans quelle situation.
05:28
Speaker A
Proximal veut dire que chaque mise à jour reste modérée.
05:32
Speaker A
On ne change jamais tout d'un coup.
05:35
Speaker A
Prenons un exemple du quotidien.
05:37
Speaker A
La main robotique qui résout un Rubik's Cube, OpenAI 2019.
05:44
Speaker A
Des milliards de parties en simulation, des récompenses pour chaque face correcte.
05:50
Speaker A
La main a appris des gestes de précision.
05:54
Speaker A
Et personne n'aurait pu programmer cela.
05:56
Speaker A
C'est pas intéressant ça?
05:58
Speaker A
Quels sont donc les indicateurs utilisés pour évaluer cette méthode?
06:01
Speaker A
Le premier indicateur, c'est le ratio de politique.
06:06
Speaker A
Qui compare la probabilité de l'action selon la politique.
06:10
Speaker A
Nouvelle politique et l'ancienne.
06:13
Speaker A
PPO clip ce ratio dans l'intervalle 0,8, 1,2.
06:18
Speaker A
Si une mise à jour voulait aller trop loin, elle est limitée.
06:21
Speaker A
C'est le filet de sécurité du PPO.
06:25
Speaker A
L'advantage.
06:26
Speaker A
C'est une fonction qui mesure si une action était meilleure ou pire que ce qu'on attendait en moyenne.
06:33
Speaker A
Advantage positif, cela signifie qu'on l'encourage.
06:36
Speaker A
Et négatif, on la décourage.
06:38
Speaker A
Quels sont donc les critères d'arrêt de cette méthode?
06:41
Speaker A
Premièrement, nous avons la récompense moyenne stabilisée.
06:45
Speaker A
Si la récompense moyenne sur les 100 derniers épisodes ne s'améliore plus, l'agent a atteint son plateau.
06:52
Speaker A
Ensuite, nous avons le budget de simulation atteint.
06:56
Speaker A
On fixe un budget, par exemple, 10 milliards de pas de simulation.
07:01
Speaker A
Une fois épuisé, on s'arrête.
07:04
Speaker A
Après cela, nous allons comparer ce qu'on appelle le KL divergence au seuil.
07:07
Speaker A
Je vais vous l'expliquer.
07:09
Speaker A
Si la divergence entre l'ancienne et la nouvelle politique est inférieure à un seuil, la mise à jour est suffisamment petite.
07:16
Speaker A
Quels sont donc les avantages de cette méthode?
07:19
Speaker A
D'abord, elle offre des actions continues.
07:23
Speaker A
Un robot peut tourner sur son épaule de exactement 12,3 degrés.
07:28
Speaker A
PPO gère ça nativement.
07:30
Speaker A
Elle est stable.
07:31
Speaker A
Le clipping évite les mises à jour catastrophiques.
07:35
Speaker A
Ce qui la rend encore très très intéressante.
07:38
Speaker A
Toutefois, elle a des inconvénients.
07:41
Speaker A
Le premier inconvénient, c'est qu'elle est exigeante en simulation.
07:45
Speaker A
Des milliards de pas de simulation pour des tâches complexes.
07:50
Speaker A
Hmm.
07:52
Speaker A
C'est dur à calculer.
07:54
Speaker A
Ensuite, elle est victime de ce qu'on appelle le sim-to-real gap.
07:59
Speaker A
C'est-à-dire, ce qui fonctionne en simulation peut échouer dans le monde réel.
08:03
Speaker A
Et c'est ce qui n'est pas intéressant.
08:04
Speaker A
Quand on fait un modèle ou une méthode.
08:07
Speaker A
C'est pour avancer dans la réalité.
08:10
Speaker A
Mais lorsqu'on a ces écarts, on se pose vraiment de vraies questions.
08:15
Speaker A
Ainsi prend fin les méthodes d'apprentissage par renforcement.
08:20
Speaker A
Si vous avez aimé la présentation ou le contenu, n'hésitez pas à me laisser un pouce bleu.
08:25
Speaker A
C'est ce qui m'encourage vraiment à continuer dans cette même lancée.
08:29
Speaker A
La prochaine vidéo sera consacrée aux méthodes ensemblistes et les noyaux.
08:35
Speaker A
Mais en attendant.
08:36
Speaker A
Prenez soin de vous.
08:37
Speaker A
Au revoir.
Topics:apprentissage par renforcementQ-learningPPOProximal Policy Optimizationréseaux de neuronesrobotsintelligence artificiellesimulationalgorithmedata science

Frequently Asked Questions

Qu'est-ce que le Q-learning et comment fonctionne-t-il ?

Le Q-learning est un algorithme d'apprentissage par renforcement qui construit une table associant chaque état-action à une valeur Q représentant la récompense attendue à long terme. L'agent choisit toujours l'action avec la meilleure Q-value et met à jour cette table selon l'équation de Bellman.

Quels sont les avantages du PPO par rapport au Q-learning ?

Le PPO permet de gérer des actions continues grâce à un réseau de neurones, offre une meilleure stabilité via le clipping des mises à jour, et est adapté aux problèmes complexes où le Q-learning ne peut pas être appliqué efficacement.

Quels sont les principaux défis du PPO en apprentissage par renforcement ?

Le PPO nécessite des milliards de pas de simulation pour apprendre efficacement, ce qui est coûteux en calcul, et il souffre du sim-to-real gap, c'est-à-dire que ce qui fonctionne en simulation peut échouer dans le monde réel.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

Or transcribe another YouTube video here →