Gradient


Le gradient est, en mathématiques, un vecteur représentant la variation d’une fonction au voisinage d’un point donné (en pratique, lorsqu’on dessine une courbe, plus le gradient est élevé, plus la « pente » de la courbe est forte).

Appliqué au cas de l’apprentissage d’un modèle d’IA, le gradient est utilisé pour mettre en œuvre l’algorithme de descente de gradient (ou algorithme de la plus forte pente). Ce dernier permet d’obtenir un résultat optimal selon certains critères (par exemple : minimisation d’une fonction de perte), de manière itérative, c’est-à-dire par une succession d’étapes.

Différentes stratégies existent pour réaliser la descente de gradient qui mobilisent des ensembles de données différents (batch gradient descent, mini-batch gradient descent, stochastic gradient descent, etc.).