Histoire:
Ma grand-mère marche, mais ne grimpe pas. Certaines mamies le font. Une grand-mère était célèbre pour avoir escaladé le Kilimandjaro .
Ce volcan dormant est grand. Il est à 16 000 pieds au-dessus de sa base. (Ne détestez pas mes unités impériales.) Il y a aussi parfois des glaciers au sommet.
Si vous montez une année où il n'y a pas de glacier et que vous arrivez au sommet, est-ce le même sommet que s'il y avait un glacier? L'altitude est différente. Le chemin que vous devez emprunter est différent. Et si vous montez au sommet lorsque l'épaisseur du glacier est plus grande? Cela en fait-il davantage un accomplissement? Environ 35 000 personnes tentent de l'escalader chaque année, mais seulement 16 000 y parviennent.
Application:
Je voudrais donc expliquer le contrôle des poids (alias minimiser la complexité du modèle) à ma grand-mère, comme suit:
Grand-mère, votre cerveau est un penseur incroyable, que vous le sachiez ou non. Si je vous demande combien des 16 000 personnes qui pensent avoir atteint le sommet l'ont fait, vous diriez «toutes».
Si je mettais des capteurs dans la peau de tous les 30 000 grimpeurs et mesurais la hauteur au-dessus du niveau de la mer, alors certaines de ces personnes n'étaient pas aussi hautes que d'autres et pourraient ne pas être qualifiées. Quand je fais cela, je vais sur un modèle constant - je dis que si la hauteur n'est pas égale à un centile des hauteurs maximales mesurées, ce n'est pas le sommet. Certaines personnes sautent au sommet. Certaines personnes franchissent la ligne et s'assoient.
Je pourrais ajouter la latitude et la longitude au capteur, et ajuster des équations d'ordre supérieur et peut-être pourrais-je obtenir un meilleur ajustement, et avoir plus de gens dedans, peut-être même exactement 45% du total des gens qui essaient.
Alors disons que l'année prochaine est une année "grand glacier" ou "pas de glacier" car un volcan transforme vraiment l' albédo de la terre. Si je prends mon modèle complexe et exigeant de cette année et que je l'applique aux gens qui grimpent l'année prochaine, le modèle va avoir des résultats étranges. Peut-être que tout le monde "passera" ou même sera trop haut pour passer. Peut-être que personne ne passera du tout, et il pensera que personne n'a réellement terminé la montée. Surtout lorsque le modèle est complexe, il aura tendance à ne pas se généraliser correctement. Il peut correspondre exactement aux données de «formation» de cette année, mais lorsque de nouvelles données arrivent, elles se comportent mal.
Discussion:
Lorsque vous limitez la complexité du modèle, vous pouvez généralement avoir une meilleure généralisation sans sur-ajustement. L'utilisation de modèles plus simples, plus construits pour s'adapter aux variations du monde réel, tend à donner de meilleurs résultats, toutes choses étant égales par ailleurs.
Vous avez maintenant une topologie de réseau fixe, vous dites donc "mon nombre de paramètres est fixe" - je ne peux pas avoir de variation dans la complexité du modèle. Absurdité. Mesurez l'entropie dans les poids. Lorsque l'entropie est plus élevée, cela signifie que certains coefficients sont beaucoup plus «informatifs» que d'autres. Si vous avez une entropie très faible, cela signifie qu'en général, les coefficients portent des niveaux similaires d '"informativité". L'informativité n'est pas nécessairement une bonne chose. Dans une démocratie, vous voulez que tous les gens soient égaux, et des choses comme George Orwell «plus égales que les autres» sont une mesure des défaillances du système. Si vous n'avez pas une bonne raison à cela, vous voulez que les poids soient assez similaires les uns aux autres.
Sur une note personnelle: au lieu d'utiliser le vaudou ou l'heuristique, je préfère des choses comme les "critères d'information" car ils me permettent d'obtenir des résultats fiables et cohérents. AIC , AICc et BIC sont des points de départ communs et utiles. La répétition de l'analyse pour déterminer la stabilité de la solution ou la gamme des résultats des critères d'information est une approche courante. On pourrait envisager de mettre un plafond sur l'entropie dans les poids.