Réseau de neurones

Définition complète

Un réseau de neurones artificiel est une architecture mathématique qui s'inspire (très loin) du cerveau biologique. Les "neurones" sont en fait des unités de calcul qui reçoivent des entrées, les multiplient par des poids, additionnent le tout, et passent le résultat à travers une fonction d'activation non-linéaire (ReLU, sigmoid, etc.).

Les neurones sont organisés en **couches** : - Une couche d'entrée qui reçoit les données brutes (pixels, tokens, etc.) - Une ou plusieurs couches cachées qui apprennent des représentations intermédiaires - Une couche de sortie qui produit le résultat (classe prédite, prochain token, etc.)

Le "deep learning" désigne les réseaux à beaucoup de couches (dizaines à milliers). Plus de couches = plus de capacité à apprendre des représentations abstraites, mais aussi plus de risque de sur-apprentissage si on n'a pas assez de données.

Les architectures clés à connaître : - **MLP (Multi-Layer Perceptron)** : la version la plus simple, juste des couches denses - **CNN (Convolutional Neural Network)** : domine la vision par ordinateur - **RNN/LSTM** : ancêtres pour le séquentiel (traduction, parole), aujourd'hui supplantés - **Transformers** : l'architecture qui a tout balayé depuis 2017, base de tous les LLMs

L'apprentissage se fait par descente de gradient : on ajuste les poids dans le sens qui réduit l'erreur de prédiction sur les exemples d'entraînement. Mathématiquement c'est juste de la dérivée et de la chaîne de règles, mais à l'échelle des millions de paramètres.

Définition complète

Tu veux maîtriser Réseau de neurones en pratique ?

Termes liés