LoRA

Définition complète

LoRA (Low-Rank Adaptation) est l'innovation qui a démocratisé le fine-tuning. Avant LoRA, fine-tuner un modèle de 7 milliards de paramètres demandait de modifier les 7 milliards — donc autant de mémoire GPU et de temps. Avec LoRA, on "gèle" tous les paramètres originaux et on ajoute de petites matrices entraînables (les "adapters LoRA") qui modifient subtilement le comportement du modèle.

Résultat : on entraîne 0,1% à 1% des paramètres au lieu de 100%. Le coût en GPU et en temps est divisé par 10 à 100. La performance finale est très proche d'un fine-tuning complet pour la plupart des cas d'usage.

QLoRA va plus loin : on combine LoRA avec une quantization 4 bits du modèle de base. Ça permet de fine-tuner un modèle 70B sur une seule GPU consumer (RTX 4090 par exemple) — chose qui demandait 8 GPU A100 il y a 2 ans.

Usages typiques de LoRA : - Adapter un modèle open-source (Llama, Mistral) au ton et au vocabulaire de ta marque - Spécialiser un modèle sur un domaine (médical, juridique, finance) - Créer des "personas" interchangeables (un même modèle de base + 5 adapters LoRA différents pour 5 tons différents)

Le résultat d'un fine-tuning LoRA est un fichier de quelques dizaines de Mo (vs plusieurs Go pour le modèle complet) — facile à partager, à versionner, à charger dynamiquement.

Définition complète

Tu veux maîtriser LoRA en pratique ?

Termes liés