sWELU — Sequential Weighted ELU
Ce que c'est, en une phrase
Quand un réseau de neurones apprend, il calcule en permanence des moyennes. sWELU corrige une erreur subtile dans cette moyenne — une erreur qui empêche les petits modèles d'apprendre aussi efficacement que les très gros.
Pourquoi c'est utile en industrie
Un modèle de 100 millions de paramètres équipé de sWELU peut apprendre des choses qu'on pensait réservées aux modèles de plusieurs milliards. Pratique pour l'edge (caméras, capteurs, robots) où la mémoire est limitée.
Analogie
Pensez à un orchestre. Le chef d'orchestre coordonne la moyenne. Si son chronomètre est légèrement décalé, tous les musiciens sont décalés. sWELU recalibre le chronomètre.