LoRA
Low-Rank Adaptation — technique de fine-tuning efficace qui ajoute de petites matrices entraînables.
Définition complète
LoRA (Low-Rank Adaptation) est l'innovation qui a démocratisé le fine-tuning. Avant LoRA, fine-tuner un modèle de 7 milliards de paramètres demandait de modifier les 7 milliards — donc autant de mémoire GPU et de temps. Avec LoRA, on "gèle" tous les paramètres originaux et on ajoute de petites matrices entraînables (les "adapters LoRA") qui modifient subtilement le comportement du modèle.
Résultat : on entraîne 0,1% à 1% des paramètres au lieu de 100%. Le coût en GPU et en temps est divisé par 10 à 100. La performance finale est très proche d'un fine-tuning complet pour la plupart des cas d'usage.
QLoRA va plus loin : on combine LoRA avec une quantization 4 bits du modèle de base. Ça permet de fine-tuner un modèle 70B sur une seule GPU consumer (RTX 4090 par exemple) — chose qui demandait 8 GPU A100 il y a 2 ans.
Usages typiques de LoRA : - Adapter un modèle open-source (Llama, Mistral) au ton et au vocabulaire de ta marque - Spécialiser un modèle sur un domaine (médical, juridique, finance) - Créer des "personas" interchangeables (un même modèle de base + 5 adapters LoRA différents pour 5 tons différents)
Le résultat d'un fine-tuning LoRA est un fichier de quelques dizaines de Mo (vs plusieurs Go pour le modèle complet) — facile à partager, à versionner, à charger dynamiquement.
Approfondir
Tu veux maîtriser LoRA en pratique ?
Le module "Fine-tuning — personnaliser un modèle existant" couvre lora en profondeur, avec démonstrations interactives et exercices.
Découvrir le module →Termes liés
Adaptation d'un modèle pré-entraîné à une tâche ou un domaine spécifique en le réentraînant.
Valeurs numériques ajustées pendant l'entraînement — l'équivalent des "connaissances" stockées.
Large Language Model — modèle de deep learning entraîné sur d'immenses corpus de texte.