Apprentissage par renforcement et rétroaction humaine


Approche d’apprentissage par renforcement qui utilise les commentaires et les évaluations d’utilisateurs humains pour guider l’apprentissage d’un modèle d’intelligence artificielle. Ce type d'apprentissage est utilisé dans les générateurs de texte fondés sur les grands modèles de langue.