aide detection

À un niveau élevé, l'apprentissage par renforcement suit la perspicacité dérivée de Pavlov: il est possible d'enseigner à un bénéficiaire à maîtriser des tâches complexes et novatrices par le biais uniquement de renforcement positif et négatif. L’algorithme commence à apprendre une tâche assignée en prédisant quelle action pourrait lui valoir une récompense. Il prend ensuite l'action, observe la vraie récompense et ajuste sa prédiction.

Il s'avère que le système de récompense du cerveau fonctionne à peu près de la même manière - une découverte faite dans les années 1990, inspirée par des algorithmes d'apprentissage par renforcement. Lorsqu'un humain est sur le point d'effectuer une action, ses neurones dopaminergiques font une prédiction sur la récompense attendue. Une fois la récompense réelle reçue, ils tirent ensuite une quantité de dopamine correspondant à l'erreur de prédiction. Une meilleure récompense que prévu déclenche une forte libération de dopamine, tandis qu'une pire récompense que prévu supprime la production du produit chimique. En d'autres termes, la dopamine sert de signal de correction, disant aux neurones d'ajuster leurs prédictions jusqu'à ce qu'elles convergent vers une perception de la réalité. Le phénomène, connu sous le nom d'erreur de prédiction de récompense, fonctionne comme un algorithme d'apprentissage par renforcement.

Ces nouvelles méthodes offrent un suivi d’accompagnement personnalisé, motivant, une explication encore plus précise du fonctionnement des renforcements, du lien et fonctionnement des neurones dopaminergiques dans le cerveau. Plus précisément, l'algorithme amélioré change la façon dont il prédit les récompenses. Alors que d'ancienne approche estimait les récompenses sous la forme d'un nombre unique - censé être égal au résultat moyen attendu – cette approche les représentent plus précisément sous forme de distribution systématique et multiple. (Pensez un instant à un jeu de carte de type poker,..: des probabilités peuvent être établies, vous pouvez gagner ou perdre après une certaine distribution. Mais en aucun cas vous ne recevrez le résultat moyen attendu...

En savoir plus...

Translate »